Dissertations / Theses on the topic 'Série de données'

To see the other types of publications on this topic, follow the link: Série de données.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Série de données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Meyer, Nicolas. "Méthodes statistiques d'analyse des données d'allélotypage en présence d'homozygotes." Université Louis Pasteur (Strasbourg) (1971-2008), 2007. https://publication-theses.unistra.fr/public/theses_doctorat/2007/MEYER_Nicolas_2007.pdf.

Full text
Abstract:
Les donnéees d'allélotypage contiennent des mesures réealisées par Polymerase Chain Reaction sur une série de microsatellites de l'ADN a¯n de déterminer l'existence d'un déséquilibre allélique pour ces microsatellites. D'un point de vue statistique, ces données sont caractérisées par un nombre important de données manquantes (en cas d'homozygotie du microsatellite), par des matrices carrées ou comportant plus de variables que de sujets, des variables biniomiales, des effectifs parfois faibles et éventuellement de la colinéarité. Les méthodes statistiques fréquentistes ont un nombre important de limites qui font choisir un cadre bayésien pour analyser ces données. En analyse univariée, l'intérêt du facteur de Bayes est exploré et différentes variantes selon l'absence ou la présence de données manquantes sont comparées. Différents types d'imputations multiples sont ensuite étudiés. Des modµeles de type méta-analyses sont également évalués. En analyse multivariéee, un modµele de type Partial Least Square est développé. Le modµele est appliqué sous une forme de modµele linéaire généralisé (régression logistique) et combiné avec l'algorithme Non Iterative Partial Least Squares, ce qui permet de gérer simultanément toutes les limites propres aux données d'alléotypage. Les propriétés de ce modµele sont explorées. Il est ensuite appliqué µa des données d'allélotypage portant sur 33 microsatellites de 104 patients porteurs d'un cancer du colon pour prédire le stade Astler-Coller de la tumeur. Un modµele avec toutes les interactions possibles entre couples de microsatellites est également réaliseé
Allelotyping data contain measures done using Polymerase Chain Reaction on a batch of DNA microsatellites in order to ascertain the presence or not of an allelic imbalance for this microsatellites. From a statistical point of view, those data are characterised by a high number of missing data (in case of homozygous microsatellite), square or °at matrices, binomial data, sample sizes which may be small with respect to the number of variables and possibly some colinearity. Frequentist statistical methods have a number of shortcomings who led us to choose a bayesian framework to analyse these data. For univariate analyses, the Bayes factor is explored and several variants according to the presence or absence of missing data are compared. Di®erent multiple imputations types are then studied. Meta-analysis models are also assessed. For multivariate analyses, a Partial Least Square model is developed. The model is applied under a generalised linear model (logistic regression) and combined with a Non Iterative Partial Least Squares algorithm which 3 makes it possible to manage simultaneously all the limits of allelotyping data. Properties of this model are explored. It is then applied on allelotyping data on 33 microsatellites of 104 patients who have colon cancer to predict the tumor Astler-Coller stage. A model with all possible microsatellites pairs interactions is also run
APA, Harvard, Vancouver, ISO, and other styles
2

Ponchateau, Cyrille. "Conception et exploitation d'une base de modèles : application aux data sciences." Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2018. http://www.theses.fr/2018ESMA0005/document.

Full text
Abstract:
Les sciences expérimentales font régulièrement usage de séries chronologiques, pour représenter certains des résultats expérimentaux, qui consistent en listes chronologiques de valeurs (indexées par le temps), généralement fournies par des capteurs reliés à un système (objet de l’expérience). Ces séries sont analysées dans le but d’obtenir un modèle mathématique permettant de décrire les données et ainsi comprendre et expliquer le comportement du système étudié. De nos jours, les technologies de stockage et analyse de séries chronologiques sont nombreuses et matures, en revanche, quant au stockage et à la gestion de modèles mathématiques et leur mise en lien avec des données numériques expérimentales, les solutions existantes sont à la fois récentes, moins nombreuses et moins abouties. Or,les modèles mathématiques jouent un rôle essentiel dans l’interprétation et la validation des résultats expérimentaux. Un système de stockage adéquat permettrait de faciliter leur gestion et d’améliorer leur ré-utilisabilité. L’objectif de ce travail est donc de développer une base de modèles permettant la gestion de modèle mathématiques et de fournir un système de « requête par les données », afin d’aider à retrouver/reconnaître un modèle à partir d’un profil numérique expérimental. Dans cette thèse, je présente donc la conception (de la modélisation des données, jusqu’à l’architecture logicielle) de la base de modèles et les extensions qui permettent de réaliser le système de « requête par les données ». Puis, je présente le prototype de la base de modèle que j’ai implémenté, ainsi que les résultats obtenus à l’issu des tests de ce-dernier
It is common practice in experimental science to use time series to represent experimental results, that usually come as a list of values in chronological order (indexed by time) and generally obtained via sensors connected to the studied physical system. Those series are analyzed to obtain a mathematical model that allow to describe the data and thus to understand and explain the behavio rof the studied system. Nowadays, storage and analyses technologies for time series are numerous and mature, but the storage and management technologies for mathematical models and their linking to experimental numerical data are both scarce and recent. Still, mathematical models have an essential role to play in the interpretation and validation of experimental results. Consequently, an adapted storage system would ease the management and re-usability of mathematical models. This work aims at developing a models database to manage mathematical models and provide a “query by data” system, to help retrieve/identify a model from an experimental time series. In this work, I will describe the conception (from the modeling of the system, to its software architecture) of the models database and its extensions to allow the “query by data”. Then, I will describe the prototype of models database,that I implemented and the results obtained by tests performed on the latter
APA, Harvard, Vancouver, ISO, and other styles
3

Iraqui, Samir. "Détection statique en temps semi réel de valeurs aberrantes dans une série chronologique de données bactériologiques." Rouen, 1986. http://www.theses.fr/1986ROUES042.

Full text
Abstract:
Pour apprécier la qualité bactériologique du lait fourni par les producteurs aux laiteries, le Labilait procède au dénombrement de microorganismes aérobies, dans le lait collecté, à raison de 3 numérations mensuelles. A la fin du mois, un classement est affecté aux fournitures; de ce classement dépend la rémunération du producteur. Des résultats considérés comme "aberrants" par les laiteries peuvent être annulés (et donc ne pas intervenir dans le classement) si la demande est formulée auprès du laboratoire. Cette décision ne repose actuellement sur aucune analyse statistique bien précise. Ce travail consiste à proposer des méthodes statistiques de choix de valeurs dont l'annulation paraît se justifier. Sur un échantillon de 100 producteurs suivi pendant 2 ans, on met en oeuvre 2 méthodes (chacune à 2 seuils différents) et on compare leurs effets sur le classement mensuel des fournitures. L'une des méthodes proposées est fondée sur la recherche d'intervalles de prévision dans un modèle de régression linéaire; une note fournie en annexe précise cette notion et la compare à 2 versions d'intervalles de confiance dans ce modèle
APA, Harvard, Vancouver, ISO, and other styles
4

Benson, Marie Anne. "Pouvoir prédictif des données d'enquête sur la confiance." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69497.

Full text
Abstract:
Les données d’enquête sur la confiance sont des séries chronologiques recensant les réponses à des questions visant à mesurer la confiance et les anticipations des agents économiques à propos de l’activité économique future. La richesse de ces données ainsi que leur disponibilité en temps réel suscitent l’intérêt de nombreux prévisionnistes, qui y voient un moyen d’améliorer leurs prévisions classiques. Dans ce mémoire, j’évalue le pouvoir prédictif des données d’enquête sur la confiance pour l’évolution future du PIB, tout en comparant notamment la performance prévisionnelle des indices de confiance produits par le Conférence Board of Canada aux indicateurs que je construis par l’analyse en composantes principales. À partir de trois modèles linéaires, j’analyse une expérience de prévision hors échantillon, de type « rolling windows », sur un échantillon couvrant la période 1980 à 2019. Les résultats démontrent que l’analyse en composantes principales fournissent des indicateurs plus performants que les indices de confiance du Conference Board. Cependant, les résultats de l’étude ne permettent pas d’affirmer clairement que la confiance améliore la prévision une fois que le taux de croissance retardé du PIB est incorporé.
Confidence survey data are time series containting the responses to questions aiming to measure confidence and expectations of economic agents about future economic activity. The richness of these data and their availability in real time attracts the interest of many forecasters who see it as a way to improve their traditional forecasts. In this thesis, I assess the predictive power of survey data for the future evolution of Canadian GDP, while comparing the forecasting performance of the Conference Board of Canada own confidence indices to the indicators I construct using principal component analysis. Using three simple linear models, I carry out an out-of-sample forecasting experiment with rolling windows on the period 1980 to 2019. The results show that principal component analysis provides better-performing indicators than the indices produced by the Conference Board. However, the results of the study cannot show that clear that confidence improves forecasting unambiguently once the lagged growth rate of GDP is added to the analysis.
APA, Harvard, Vancouver, ISO, and other styles
5

Peng, Tao. "Analyse de données loT en flux." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0649.

Full text
Abstract:
Depuis l'avènement de l'IoT (Internet of Things), nous assistons à une augmentation sans précédent du volume des données générées par des capteurs. Pour l'imputation des données manquantes d'un capteur f, nous proposons le modèle ISTM (Incremental Space-Time Model), qui utilise la régression linéaire multiple incrémentale adaptée aux données en flux non-stationnaires. ISTM met à jour son modèle en sélectionnant : 1) les données des capteurs voisins géographiquement du capteur f, et 2) les données les plus récentes retournées par f. Pour mesurer la confiance, nous proposons un modèle générique de prédiction DTOM (Data Trustworthiness Online Model) qui s'appuie sur des méthodes ensemblistes de régression en ligne comme AddExp et BNNRW . DTOM permet de prédire des valeurs de confiance en temps réel et comporte trois phases : 1) une phase d'initialisation du modèle, 2) une phase d'estimation du score de confiance, et 3) une phase de mise à jour heuristique du régresseur. Enfin, nous nous intéressons à la prédiction dans une STS avec des sorties multiples en présence de déséquilibre, c'est à dire lorsqu'il y a plus d'instances dans un intervalle de valeurs que dans un autre. Nous proposons MORSTS, une méthode de régression ensembliste en ligne, avec les caractéristiques suivantes : 1) les sous-modèles sont à sorties multiples, 2) l'utilisation de la stratégie sensible aux coûts c'est à dire que l'instance incorrectement prédite a un poids plus élevé, et 3) le contrôle du sur-apprentissage des sous-modèles naissants par la méthode de validation croisée k-fold. Des expérimentations avec des données réelles ont été effectuées et comparées avec des techniques connues
Since the advent of the IoT (Internet of Things), we have witnessed an unprecedented growth in the amount of data generated by sensors. To exploit this data, we first need to model it, and then we need to develop analytical algorithms to process it. For the imputation of missing data from a sensor f, we propose ISTM (Incremental Space-Time Model), an incremental multiple linear regression model adapted to non-stationary data streams. ISTM updates its model by selecting: 1) data from sensors located in the neighborhood of f, and 2) the near-past most recent data gathered from f. To evaluate data trustworthiness, we propose DTOM (Data Trustworthiness Online Model), a prediction model that relies on online regression ensemble methods such as AddExp (Additive Expert) and BNNRW (Bagging NNRW) for assigning a trust score in real time. DTOM consists: 1) an initialization phase, 2) an estimation phase, and 3) a heuristic update phase. Finally, we are interested predicting multiple outputs STS in presence of imbalanced data, i.e. when there are more instances in one value interval than in another. We propose MORSTS, an online regression ensemble method, with specific features: 1) the sub-models are multiple output, 2) adoption of a cost sensitive strategy i.e. the incorrectly predicted instance has a higher weight, and 3) management of over-fitting by means of k-fold cross-validation. Experimentation with with real data has been conducted and the results were compared with reknown techniques
APA, Harvard, Vancouver, ISO, and other styles
6

Hugueney, Bernard. "Représentations symboliques de longues séries temporelles." Paris 6, 2003. http://www.theses.fr/2003PA066161.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

David, Bogdan-Simion. "Les données climatiques instrumentales de Roumanie sont-elles susceptibles d'identifier un changement climatique ?" Strasbourg, 2010. http://www.theses.fr/2010STRA5004.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Ladjouze, Salim. "Problèmes d'estimation dans les séries temporelles stationnaires avec données manquantes." Phd thesis, Université Joseph Fourier (Grenoble ; 1971-2015), 1986. http://tel.archives-ouvertes.fr/tel-00319946.

Full text
Abstract:
Le problème des données manquantes a été abordé en introduisant les processus modulés en amplitude. Les propriétés de type ergodique (ergodicité au k-ième degré) sont étudiées dans le cadre des processus asymptotiquement stationnaires. Dans le domaine non paramétrique on étudie la consistance de deux estimateurs de la fonction de covariance et la variance asymptotique de l'un deux. On propose ensuite une méthode générale d'estimation de la fonction de densité spectrale du processus étudié. L'estimateur obtenu est étudié du point de vue biais et variance asymptotiques. Des méthodes d'estimation paramétrique, basées sur le périodogramme et du maximum de vraisemblance, sont aussi présentées
APA, Harvard, Vancouver, ISO, and other styles
9

Walter, Patricia. "L'effet du traitement chirurgical dans l'acromégalie : à propos d'une série caennaise de 29 acromégalies opérées : données comparées à celle de la littérature." Caen, 1993. http://www.theses.fr/1993CAEN3096.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Hocine, Mounia Nacima. "Analyse de données de comptage bivarié dans les études de série de cas ou de cohorte : application à la résistance bactérienne aux antibiotiques." Paris 11, 2005. http://www.theses.fr/2005PA11T052.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Langlois, Vincent. "Couple de friction métallique de nouvelle génération en arthroplastie totale primaire de hanche : historique, données actuelles et résultats préliminaires d'une série de 54 cas." Bordeaux 2, 2001. http://www.theses.fr/2001BOR23022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
12

Cheysson, Felix. "Maladies infectieuses et données agrégées : estimation de la fraction attribuable et prise en compte de biais." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASR012.

Full text
Abstract:
La surveillance épidémiologique repose le plus souvent sur l'analyse d'indicateurs de santé agrégés. Nous étudions les problèmes méthodologiques rencontrés lorsque l'on travaille sur ce type de données dans un contexte de santé publique. Dans un premier temps, nous nous intéressons au calcul de la fraction attribuable lorsque l'exposition est épidémique et le nombre d'événements de santé saisonnier. Pour les modèles statistiques de séries temporelles les plus souvent utilisés, nous présentons une méthode d'estimation de cette fraction et de ses intervalles de confiance. Ce travail nous a permis de montrer que la campagne de sensibilisation "Les antibiotiques, c'est pas automatique !" avait conduit à une diminution de plus de moitié des prescriptions antibiotiques associées aux épidémies de syndromes grippaux dès 2005. Par ailleurs, récemment 17% des prescriptions seraient attribuables aux infections virales des voies respiratoires basses pendant la période hivernale, et près de 38% chez les enfants, dont la moitié attribuables aux bronchiolites. Dans un second temps, nous proposons les processus de Hawkes comme modèles pour les maladies contagieuses et étudions l'impact de l'agrégation des données sur leur estimation. Dans ce contexte, nous développons une méthode d'estimation des paramètres du processus et prouvons que les estimateurs ont de bonnes propriétés asymptotiques. Ces travaux fournissent des outils statistiques pour éviter certains biais dus à l'agrégation de données individuelles pour l'étude de fractions attribuables et de maladies contagieuses
Epidemiological surveillance is most often based on the analysis of aggregate health indicators. We study the methodological problems encountered when working with this type of data in a public health context. First, we focus on calculating the attributable fraction when the exposure is epidemic and the number of health events exhibits a seasonality. For the most frequently used time series models, we present a method for estimating this fraction and its confidence intervals. This work enabled us to show that the awareness campaign "Antibiotics are not automatic!" led to a reduction of more than half of the antibiotic prescriptions associated with influenza epidemics as early as 2005. Moreover, recently 17% of prescriptions are thought to be attributable to viral infections of the lower respiratory tract during the cold period, and nearly 38% in children, half of which attributable to bronchiolitis. In a second step, we propose Hawkes processes as models for contagious diseases and study the impact of data aggregation on their estimation. In this context, we develop a method for estimating the process parameters and prove that the estimators have good asymptotic properties. This work provides statistical tools to avoid some biases due to the use of aggregate data for the study of attributable fractions and contagious diseases
APA, Harvard, Vancouver, ISO, and other styles
13

Dkhil, Abdellatif. "Identification systématique de structures visuelles de flux physique de production." Strasbourg, 2011. http://www.theses.fr/2011STRA6012.

Full text
Abstract:
Ce travail de recherche est motivé par le contexte concurrentiel des entreprises industrielles. Il porte sur la conception des systèmes physiques de production. Plus précisément, le cadre d’étude est centré la phase de conception préliminaire. Cette phase est particulièrement sensible et elle représente des enjeux majeurs. Lors de cette phase, différents points de vue peuvent être considérés pour générer des agencements conceptuels. Ce travail se focalise sur l’étude d’un point de vue unique ; celui du flux statique de produit entre les postes de charges. La génération des agencements conceptuels selon le point de vue flux de produits s’effectue par l’application d’une méthode appelée méthode usuelle d’élaboration des agencements conceptuels. Cette méthode est proposée dans la littérature scientifique. Elle se présente comme une chaîne de traitements des données générés par trois activités principales. La première activité consiste à extraire les données de flux à partir des gammes de production. Lors de la deuxième activité, des propriétés d’analyse sont utilisées pour analyse les données de flux. Les résultats de l’analyse unique ou combinée sont appelées structures visuelles. La troisième activité permet la transformation des structures visuelles en dessins de graphe de flux. Une étude bibliographique aboutit à 44 propriétés d’analyse induisant 1. 75 1013 structures visuelles possibles et donc au même nombre de dessins de graphes de flux. Devant ce constat, une problématique scientifique de réduction du modèle sur la base des connaissances expertes est définie. Dans ce travail, la réduction du modèle est présentée comme un processus de restriction basée sur des règles métiers et vérifiés avec des données industrielles. Au travers de ce processus de réduction, trois contributions sont proposées. La première consiste et à identifier un référentiel des propriétés d’analyse. Ces propriétés sont jugées les plus utiles et les plus pertinentes en conception préliminaire du système physique de production. La seconde correspond à l’identification d’un référentiel des structures visuelles. En fin la troisième contribution est une méthode d’identification automatique des structures visuelles particulière. Pour évaluer l’apport de ces trois contributions, une étude de cas industriel est proposée
This research is motivated by the competitive environment of manufacturing companies. It mainly concerns the design of physical production systems. Specifically, the framework study is performed during the preliminary design phase. This phase is particularly sensitive and plays a major role, where different point of views can be considered to realize the conceptual design. Only one view point concerning the static production flow is considered in this work. To generate a conceptual design depending on this point of view, a usual method of conceptual design elaboration is used. This method is introduced in many literatures. It looks like a string of data processing generated by three main activities. The first activity allows the extraction of data flow from product routing data. During the second activity, properties of analysis are used to analyze the data flow. The single or combined analysis results are called visual structures. The third activity allows the drawings of production flow graph using visual structures. After a literature review, 44 properties analysis are obtained. From these properties of analysis we can deduce 1. 75 1013 possible visual structures and the same number of production flow graphs. Recognizing this, a scientific problem of model reduction based on expert knowledge is defined. Here, the model reduction is a restriction process based on expert rules and validated with industrial data. Through this restriction process, three contributions are proposed. The first concerns the identification of referential properties of analysis which are considered the most useful and relevant in preliminary design phase. The second allows the identification of referential visual structures. The third contribution is a method to automatically identify the particular visual structures. In order to evaluate these contributions, an industrial case study is proposed
APA, Harvard, Vancouver, ISO, and other styles
14

Bajja, Ali. "Nouvelles données pétrographiques et géochimiques sur les formations volcaniques précambriennes du Djebel Saghro (anti-atlas marocain), basaltes en coussins du P II et volcanites de la série de Ouarzazate (P III)." Nancy 1, 1987. http://www.theses.fr/1987NAN10130.

Full text
Abstract:
Les basaltes en pillows lavas d'Anou n'Izme appartenant au précambrien II affleurent en un petit massif bien intercalé dans les bancs greso-pelitiques avec lesquels il est concordant. La paragénèse de ces roches correspond à celle de schistes verts. Ces basaltes, à caractère tholeiitique seraient issus d'une péridotite par fusion partielle. La série volcanique d'Ouarzazate, attribuée au précambrien III, constitue une suite continue allant des andésites basiques aux rhyolites et ignimbrites, et présente une affinité magmatique calcoalcaline comparable à celle des marges continentales actives de type andin. La génèse de ces roches est complexe et sans doute en relation avec une subduction en compartiments d'une lithosphère océanique au niveau de l'accident sud atlasique
APA, Harvard, Vancouver, ISO, and other styles
15

Nguyen, Hoang Viet Tuan. "Prise en compte de la qualité des données lors de l’extraction et de la sélection d’évolutions dans les séries temporelles de champs de déplacements en imagerie satellitaire." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAA011.

Full text
Abstract:
Ce travail de thèse traite de la découverte de connaissances à partir de Séries Temporelles de Champs de Déplacements (STCD) obtenues par imagerie satellitaire. De telles séries occupent aujourd'hui une place centrale dans l'étude et la surveillance de phénomènes naturels tels que les tremblements de terre, les éruptions volcaniques ou bien encore le déplacement des glaciers. En effet, ces séries sont riches d'informations à la fois spatiales et temporelles et peuvent aujourd'hui être produites régulièrement à moindre coût grâce à des programmes spatiaux tels que le programme européen Copernicus et ses satellites phares Sentinel. Nos propositions s'appuient sur l'extraction de motifs Séquentiels Fréquents Groupés (SFG). Ces motifs, à l'origine définis pour l'extraction de connaissances à partir des Séries Temporelles d’Images Satellitaires (STIS), ont montré leur potentiel dans de premiers travaux visant à dépouiller une STCD. Néanmoins, ils ne permettent pas d'utiliser les indices de confiance intrinsèques aux STCD et la méthode de swap randomisation employée pour sélectionner les motifs les plus prometteurs ne tient pas compte de leurs complémentarités spatiotemporelles, chaque motif étant évalué individuellement. Notre contribution est ainsi double. Une première proposition vise tout d'abord à associer une mesure de fiabilité à chaque motif en utilisant les indices de confiance. Cette mesure permet de sélectionner les motifs portés par des données qui sont en moyenne suffisamment fiables. Nous proposons un algorithme correspondant pour réaliser les extractions sous contrainte de fiabilité. Celui-ci s'appuie notamment sur une recherche efficace des occurrences les plus fiables par programmation dynamique et sur un élagage de l'espace de recherche grâce à une stratégie de push partiel, ce qui permet de considérer des STCD conséquentes. Cette nouvelle méthode a été implémentée sur la base du prototype existant SITS-P2miner, développé au sein du LISTIC et du LIRIS pour extraire et classer des motifs SFG. Une deuxième contribution visant à sélectionner les motifs les plus prometteurs est également présentée. Celle-ci, basée sur un critère informationnel, permet de prendre en compte à la fois les indices de confiance et la façon dont les motifs se complètent spatialement et temporellement. Pour ce faire, les indices de confiance sont interprétés comme des probabilités, et les STCD comme des bases de données probabilistes dont les distributions ne sont que partielles. Le gain informationnel associé à un motif est alors défini en fonction de la capacité de ses occurrences à compléter/affiner les distributions caractérisant les données. Sur cette base, une heuristique est proposée afin de sélectionner des motifs informatifs et complémentaires. Cette méthode permet de fournir un ensemble de motifs faiblement redondants et donc plus faciles à interpréter que ceux fournis par swap randomisation. Elle a été implémentée au sein d'un prototype dédié. Les deux propositions sont évaluées à la fois quantitativement et qualitativement en utilisant une STCD de référence couvrant des glaciers du Groenland construite à partir de données optiques Landsat. Une autre STCD que nous avons construite à partir de données radar TerraSAR-X couvrant le massif du Mont-Blanc est également utilisée. Outre le fait d'être construites à partir de données et de techniques de télédétection différentes, ces séries se différencient drastiquement en termes d'indices de confiance, la série couvrant le massif du Mont-Blanc se situant à des niveaux de confiance très faibles. Pour les deux STCD, les méthodes proposées ont été mises en œuvre dans des conditions standards au niveau consommation de ressources (temps, espace), et les connaissances des experts sur les zones étudiées ont été confirmées et complétées
This PhD thesis deals with knowledge discovery from Displacement Field Time Series (DFTS) obtained by satellite imagery. Such series now occupy a central place in the study and monitoring of natural phenomena such as earthquakes, volcanic eruptions and glacier displacements. These series are indeed rich in both spatial and temporal information and can now be produced regularly at a lower cost thanks to spatial programs such as the European Copernicus program and its famous Sentinel satellites. Our proposals are based on the extraction of grouped frequent sequential patterns. These patterns, originally defined for the extraction of knowledge from Satellite Image Time Series (SITS), have shown their potential in early work to analyze a DFTS. Nevertheless, they cannot use the confidence indices coming along with DFTS and the swap method used to select the most promising patterns does not take into account their spatiotemporal complementarities, each pattern being evaluated individually. Our contribution is thus double. A first proposal aims to associate a measure of reliability with each pattern by using the confidence indices. This measure allows to select patterns having occurrences in the data that are on average sufficiently reliable. We propose a corresponding constraint-based extraction algorithm. It relies on an efficient search of the most reliable occurrences by dynamic programming and on a pruning of the search space provided by a partial push strategy. This new method has been implemented on the basis of the existing prototype SITS-P2miner, developed by the LISTIC and LIRIS laboratories to extract and rank grouped frequent sequential patterns. A second contribution for the selection of the most promising patterns is also made. This one, based on an informational criterion, makes it possible to take into account at the same time the confidence indices and the way the patterns complement each other spatially and temporally. For this aim, the confidence indices are interpreted as probabilities, and the DFTS are seen as probabilistic databases whose distributions are only partial. The informational gain associated with a pattern is then defined according to the ability of its occurrences to complete/refine the distributions characterizing the data. On this basis, a heuristic is proposed to select informative and complementary patterns. This method provides a set of weakly redundant patterns and therefore easier to interpret than those provided by swap randomization. It has been implemented in a dedicated prototype. Both proposals are evaluated quantitatively and qualitatively using a reference DFTS covering Greenland glaciers constructed from Landsat optical data. Another DFTS that we built from TerraSAR-X radar data covering the Mont-Blanc massif is also used. In addition to being constructed from different data and remote sensing techniques, these series differ drastically in terms of confidence indices, the series covering the Mont-Blanc massif being at very low levels of confidence. In both cases, the proposed methods operate under standard conditions of resource consumption (time, space), and experts’ knowledge of the studied areas is confirmed and completed
APA, Harvard, Vancouver, ISO, and other styles
16

Linardi, Michele. "Variable-length similarity search for very large data series : subsequence matching, motif and discord detection." Electronic Thesis or Diss., Sorbonne Paris Cité, 2019. http://www.theses.fr/2019USPCB056.

Full text
Abstract:
Les séries de données ou série chronologique (suite de valeurs numériques représentant l’évolution d’une quantité) sont devenues l’un des types de données les plus importants et les plus populaires, omniprésents dans presque tous les domaines scientifiques. Au cours des deux dernières décennies, mais de manière encore plus évidente au cours de cette dernière période, l’intérêt porté à ce type de données s’accroît rapidement. La raison en est principalement due aux récents progrès des technologies de détection, de mise en réseau, de traitement de données et de stockage, qui ont considérablement aidé le processus de génération et de collecte de grandes quantités de séries de données. La recherche de similarité de séries de données est devenue une opération fondamentale au cœur de plusieurs algorithmes d’analyse et applications liées aux collections de séries de données. De nombreuses solutions à différents problèmes d’exploration de données, telles que le regroupement (clustering), la mise en correspondance des sous-séquences (subsequence matching), l’imputation des valeurs manquantes (imputation of missing values), la découverte de motifs (motif discovery) et la détection d’anomalies (discord discovery) sont basés sur l’utilisation de la recherche de similarité. À cet égard, toutes les solutions sur mesure pour les problèmes susmentionnés nécessitent la connaissance préalable de la longueur de la série, sur laquelle une recherche de similarité est effectuée. Dans ce scénario, l’utilisateur doit connaître la longueur des résultats attendus, ce qui est souvent une hypothèse irréaliste. Cet aspect est donc très important. Dans plusieurs cas, la longueur est un paramètre critique qui influence sensiblement la qualité du résultat final. En détail, nous avons noté que les index de séries de données permettent d’effectuer une recherche de similarité rapide. Néanmoins, tous les index existants ne peuvent répondre qu’aux requêtes d’une seule longueur (fixées au moment de la construction de l’index), ce qui constitue une limite sévère. Dans cette thèse, nous proposons d’abord ULISSE, le premier index de série de données conçue pour répondre aux requêtes de recherche de similarité de longueur variable. Notre contribution est double. Premièrement, nous introduisons une nouvelle technique de représentation, qui résume efficacement et succinctement plusieurs séquences de différentes longueurs. Sur la base de l’index proposé, nous décrivons des algorithmes efficaces pour la recherche de similarité approximative et exacte, combinant des visites d’index sur disque et des analyses séquentielles en mémoire. Notre approche prend en charge les séquences non normalisées et normalisées, et peut être utilisée sans modification avec la distance Euclidienne et la déformation temporelle dynamique (DTW), pour répondre aux requêtes de type : κ-NN et ε-range. Nous évaluons notre approche de manière expérimentale en utilisant plusieurs jeux de données synthétiques et réels. Les résultats montrent que ULISSE s’est révélé de nombreuse fois plus efficace en termes de coût d’espace et de temps, par rapport aux approches concurrentes. Par la suite, nous introduisons un nouveau framework, qui fournit un algorithme de recherche exacte de motifs (séquences fréquentes) et d’anomalies, qui trouve efficacement tous les motifs et les anomalies de tailles différentes. L’évaluation expérimentale que nous avons effectuée sur plusieurs ensembles de données réelles montre que nos approches sont jusqu’à des ordres de grandeur plus rapides que les alternatives. Nous démontrons en outre que nous pouvons supprimer la contrainte irréaliste d’effectuer des analyses en utilisant une longueur prédéfinie, ce qui conduit à des résultats plus intuitifs et exploitables, qui auraient autrement été manqués
Data series (ordered sequences of real valued points, a.k.a. time series) has become one of the most important and popular data-type, which is present in almost all scientific fields. For the last two decades, but more evidently in this last period the interest in this data-type is growing at a fast pace. The reason behind this is mainly due to the recent advances in sensing, networking, data processing and storage technologies, which have significantly assisted the process of generating and collecting large amounts of data series. Data series similarity search has emerged as a fundamental operation at the core of several analysis tasks and applications related to data series collections. Many solutions to different data mining problems, such as Clustering, Subsequence Matching, Imputation of Missing Values, Motif Discovery, and Anomaly detection work by means of similarity search. Data series indexes have been proposed for fast similarity search. Nevertheless all existing indexes can only answer queries of a single length (fixed at index construction time), which is a severe limitation. In this regard, all solutions for the aforementioned problems require the prior knowledge of the series length, on which similarity search is performed. Consequently, the user must know the length of the expected results, which is often an unrealistic assumption. This aspect is thus of paramount importance. In several cases, the length is a critical parameter that heavily influences the quality of the final outcome. In this thesis, we propose scalable solutions that enable variable-length analysis of very large data series collections. We propose ULISSE, the first data series index structure designed for answering similarity search queries of variable length. Our contribution is two-fold. First, we introduce a novel representation technique, which effectively and succinctly summarizes multiple sequences of different length. Based on the proposed index, we describe efficient algorithms for approximate and exact similarity search, combining disk based index visits and in-memory sequential scans. Our approach supports non Z-normalized and Z-normalized sequences, and can be used with no changes with both Euclidean Distance and Dynamic Time Warping, for answering both κ-NN and ε-range queries. We experimentally evaluate our approach using several synthetic and real datasets. The results show that ULISSE is several times, and up to orders of magnitude more efficient in terms of both space and time cost, when compared to competing approaches. Subsequently, we introduce a new framework, which provides an exact and scalable motif and discord discovery algorithm that efficiently finds all motifs and discords in a given range of lengths. The experimental evaluation we conducted over several diverse real datasets show that our approaches are up to orders of magnitude faster than the alternatives. We moreover demonstrate that we can remove the unrealistic constraint of performing analytics using a predefined length, leading to more intuitive and actionable results, which would have otherwise been missed
APA, Harvard, Vancouver, ISO, and other styles
17

Bahamonde, Natalia. "Estimation de séries chronologiques avec données manquantes." Paris 11, 2007. http://www.theses.fr/2007PA112115.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Nkoumbou, Charles. "I. Étude géologique des Monts Roumpi : un ensemble plutonique et volcanique de la "Ligne du Cameroun"II. Données pétrologiques sur les néphélinites du Mont Etinde (Cameroun)." Nancy 1, 1990. http://docnum.univ-lorraine.fr/public/SCD_T_1990_0460_NKOUMBOU.pdf.

Full text
Abstract:
Les monts Rumpi (sud-ouest Cameroun) sont constitués de roches plutoniques et volcaniques qui regroupent et reposent sur un substratum métamorphique et granitique. La géochronologie potassium-argon a été réalisée sur toutes les séries de roches. La série plutonique alcaline et ultime (gabbros-diorites-syénites) s'est différenciée par cristallisation fractionnée. La stratigraphie montre deux séries volcaniques allant des laves basiques alcalines aux laves felsiques hyperalcalines puis aux laves felsiques à kaersitite. La minéralogie, la géochimie et les équations de balance de masse indiquent une différenciation par cristallisation fractionnée. La source mantellique était enrichie en terres rares légères. Le montetinde a été cartographié et daté. Les caractéristiques pétrographiques, minéralogiques et géochimiques de ces laves nephelinitiques montrent qu'elles appartiennent à deux séries ou la cristallisation fractionnée a été, sporadiquement, perturbée par des réactions minéral-liquide et par des transferts d'éléments par des fluides. La source mantellique, chimiquement hétérogène, était enrichie en terres légères et était localisée en grande profondeur.
APA, Harvard, Vancouver, ISO, and other styles
19

El-Taib, El-Rafehi Ahmed. "Estimation des données manquantes dans les séries chronologiques." Montpellier 2, 1992. http://www.theses.fr/1992MON20239.

Full text
Abstract:
L'objectif de la these est de developper, de facon la plus exhaustive possible, la maniere de traiter, statistiquement, le probleme des donnees manquantes dans une collection d'informations chiffrees. En excluant le comportement facile, mais pourtant souvent employe, qui consiste a remplacer la (les) donnee(s) manquante(s) par l'intuition (sondages), le repiquage (series temporelles), ou l'elimination de lignes d'un tableau (statistiques multivariees). Nous proposons au contraire de realiser des choix, les plus pertinents possibles, dans la liste des solutions preconisees par les statisticiens depuis de nombreuses annees. Un schema methodologique est suggere permettant de guider le chercheur dans le labyrinthe de methodes exposees afin de s'y retrouver
APA, Harvard, Vancouver, ISO, and other styles
20

Khiali, Lynda. "Fouille de données à partir de séries temporelles d’images satellites." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS046/document.

Full text
Abstract:
Les images satellites représentent de nos jours une source d’information incontournable. Elles sont exploitées dans diverses applications, telles que : la gestion des risques, l’aménagent des territoires, la cartographie du sol ainsi qu’une multitude d’autre taches. Nous exploitons dans cette thèse les Séries Temporelles d’Images Satellites (STIS) pour le suivi des évolutions des habitats naturels et semi-naturels. L’objectif est d’identifier, organiser et mettre en évidence des patrons d’évolution caractéristiques de ces zones.Nous proposons des méthodes d’analyse de STIS orientée objets, en opposition aux approches par pixel, qui exploitent des images satellites segmentées. Nous identifions d’abord les profils d’évolution des objets de la série. Ensuite, nous analysons ces profils en utilisant des méthodes d’apprentissage automatique. Afin d’identifier les profils d’évolution, nous explorons les objets de la série pour déterminer un sous-ensemble d’objets d’intérêt (entités spatio-temporelles/objets de référence). L’évolution de ces entités spatio-temporelles est ensuite illustrée en utilisant des graphes d’évolution.Afin d’analyser les graphes d’évolution, nous avons proposé trois contributions. La première contribution explore des STIS annuelles. Elle permet d’analyser les graphes d’évolution en utilisant des algorithmes de clustering, afin de regrouper les entités spatio-temporelles évoluant similairement. Dans la deuxième contribution, nous proposons une méthode d’analyse pluri-annuelle et multi-site. Nous explorons plusieurs sites d’étude qui sont décrits par des STIS pluri-annuelles. Nous utilisons des algorithmes de clustering afin d’identifier des similarités intra et inter-site. Dans la troisième contribution, nous introduisons une méthode d’analyse semi-supervisée basée sur du clustering par contraintes. Nous proposons une méthode de sélection de contraintes. Ces contraintes sont utilisées pour guider le processus de clustering et adapter le partitionnement aux besoins de l’utilisateur.Nous avons évalué nos travaux sur différents sites d’étude. Les résultats obtenus ont permis d’identifier des profils d’évolution types sur chaque site d’étude. En outre, nous avons aussi identifié des évolutions caractéristiques communes à plusieurs sites. Par ailleurs, la sélection de contraintes pour l’apprentissage semi-supervisé a permis d’identifier des entités profitables à l’algorithme de clustering. Ainsi, les partitionnements obtenus en utilisant l’apprentissage non supervisé ont été améliorés et adaptés aux besoins de l’utilisateur
Nowadays, remotely sensed images constitute a rich source of information that can be leveraged to support several applications including risk prevention, land use planning, land cover classification and many other several tasks. In this thesis, Satellite Image Time Series (SITS) are analysed to depict the dynamic of natural and semi-natural habitats. The objective is to identify, organize and highlight the evolution patterns of these areas.We introduce an object-oriented method to analyse SITS that consider segmented satellites images. Firstly, we identify the evolution profiles of the objects in the time series. Then, we analyse these profiles using machine learning methods. To identify the evolution profiles, we explore all the objects to select a subset of objects (spatio-temporal entities/reference objects) to be tracked. The evolution of the selected spatio-temporal entities is described using evolution graphs.To analyse these evolution graphs, we introduced three contributions. The first contribution explores annual SITS. It analyses the evolution graphs using clustering algorithms, to identify similar evolutions among the spatio-temporal entities. In the second contribution, we perform a multi-annual cross-site analysis. We consider several study areas described by multi-annual SITS. We use the clustering algorithms to identify intra and inter-site similarities. In the third contribution, we introduce à semi-supervised method based on constrained clustering. We propose a method to select the constraints that will be used to guide the clustering and adapt the results to the user needs.Our contributions were evaluated on several study areas. The experimental results allow to pinpoint relevant landscape evolutions in each study sites. We also identify the common evolutions among the different sites. In addition, the constraint selection method proposed in the constrained clustering allows to identify relevant entities. Thus, the results obtained using the unsupervised learning were improved and adapted to meet the user needs
APA, Harvard, Vancouver, ISO, and other styles
21

Moyse, Gilles. "Résumés linguistiques de données numériques : interprétabilité et périodicité de séries." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066526/document.

Full text
Abstract:
Nos travaux s'inscrivent dans le domaine des résumés linguistiques flous (RLF) qui permettent la génération de phrases en langage naturel, descriptives de données numériques, et offrent ainsi une vision synthétique et compréhensible de grandes masses d'information. Nous nous intéressons d'abord à l'interprétabilité des RLF, capitale pour fournir une vision simplement appréhendable de l'information à un utilisateur humain et complexe du fait de sa formulation linguistique. En plus des travaux existant à ce sujet sur les composants élémentaires des RLF, nous proposons une approche globale de l'interprétabilité des résumés vus comme un ensemble de phrases et nous intéressons plus spécifiquement à la question de leur cohérence. Afin de la garantir dans le cadre de la logique floue standard, nous introduisons une formalisation originale de l'opposition entre phrases de complexité croissante. Ce formalisme nous permet de démontrer que les propriétés de cohérence sont vérifiables par le choix d'un modèle de négation spécifique. D'autre part, nous proposons sur cette base un cube en 4 dimensions mettant en relation toutes les oppositions possibles entre les phrases d'un RLF et montrons que ce cube généralise plusieurs structures d'opposition logiques existantes. Nous considérons ensuite le cas de données sous forme de séries numériques et nous intéressons à des résumés linguistiques portant sur leur périodicité : les phrases que nous proposons indiquent à quel point une série est périodique et proposent une formulation linguistique appropriée de sa période. La méthode d’extraction proposée, nommée DPE pour Detection of Periodic Events, permet de segmenter les données de manière adaptative et sans paramètre utilisateur, en utilisant des outils issus de la morphologie mathématique. Ces segments sont ensuite utilisés pour calculer la période de la série temporelle ainsi que sa périodicité, calculée comme un degré de qualité sur le résultat renvoyé mesurant à quel point la série est périodique. Enfin, DPE génère des phrases comme « Environ toutes les 2 heures, l'afflux de client est important ». Des expériences sur des données artificielles et réelles confirment la pertinence de l'approche. D’un point de vue algorithmique, nous proposons une implémentation incrémentale et efficace de DPE, basée sur l’établissement de formules permettant le calcul de mises à jour des variables. Cette implémentation permet le passage à l'échelle de la méthode ainsi que l'analyse en temps réel de flux de données. Nous proposons également une extension de DPE basée sur le concept de périodicité locale permettant d'identifier les sous-séquences périodiques d'une série temporelle par l’utilisation d’un test statistique original. La méthode, validée sur des données artificielles et réelles, génère des phrases en langage naturel permettant d’extraire des informations du type « Toutes les deux semaines sur le premier semestre de l'année, les ventes sont élevées »
Our research is in the field of fuzzy linguistic summaries (FLS) that allow to generate natural language sentences to describe very large amounts of numerical data, providing concise and intelligible views of these data. We first focus on the interpretability of FLS, crucial to provide end-users with an easily understandable text, but hard to achieve due to its linguistic form. Beyond existing works on that topic, based on the basic components of FLS, we propose a general approach for the interpretability of summaries, considering them globally as groups of sentences. We focus more specifically on their consistency. In order to guarantee it in the framework of standard fuzzy logic, we introduce a new model of oppositions between increasingly complex sentences. The model allows us to show that these consistency properties can be satisfied by selecting a specific negation approach. Moreover, based on this model, we design a 4-dimensional cube displaying all the possible oppositions between sentences in a FLS and show that it generalises several existing logical opposition structures. We then consider the case of data in the form of numerical series and focus on linguistic summaries about their periodicity: the sentences we propose indicate the extent to which the series are periodic and offer an appropriate linguistic expression of their periods. The proposed extraction method, called DPE, standing for Detection of Periodic Events, splits the data in an adaptive manner and without any prior information, using tools from mathematical morphology. The segments are then exploited to compute the period and the periodicity, measuring the quality of the estimation and the extent to which the series is periodic. Lastly, DPE returns descriptive sentences of the form ``Approximately every 2 hours, the customer arrival is important''. Experiments with artificial and real data show the relevance of the proposed DPE method. From an algorithmic point of view, we propose an incremental and efficient implementation of DPE, based on established update formulas. This implementation makes DPE scalable and allows it to process real-time streams of data. We also present an extension of DPE based on the local periodicity concept, allowing the identification of local periodic subsequences in a numerical series, using an original statistical test. The method validated on artificial and real data returns natural language sentences that extract information of the form ``Every two weeks during the first semester of the year, sales are high''
APA, Harvard, Vancouver, ISO, and other styles
22

Moyse, Gilles. "Résumés linguistiques de données numériques : interprétabilité et périodicité de séries." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066526.

Full text
Abstract:
Nos travaux s'inscrivent dans le domaine des résumés linguistiques flous (RLF) qui permettent la génération de phrases en langage naturel, descriptives de données numériques, et offrent ainsi une vision synthétique et compréhensible de grandes masses d'information. Nous nous intéressons d'abord à l'interprétabilité des RLF, capitale pour fournir une vision simplement appréhendable de l'information à un utilisateur humain et complexe du fait de sa formulation linguistique. En plus des travaux existant à ce sujet sur les composants élémentaires des RLF, nous proposons une approche globale de l'interprétabilité des résumés vus comme un ensemble de phrases et nous intéressons plus spécifiquement à la question de leur cohérence. Afin de la garantir dans le cadre de la logique floue standard, nous introduisons une formalisation originale de l'opposition entre phrases de complexité croissante. Ce formalisme nous permet de démontrer que les propriétés de cohérence sont vérifiables par le choix d'un modèle de négation spécifique. D'autre part, nous proposons sur cette base un cube en 4 dimensions mettant en relation toutes les oppositions possibles entre les phrases d'un RLF et montrons que ce cube généralise plusieurs structures d'opposition logiques existantes. Nous considérons ensuite le cas de données sous forme de séries numériques et nous intéressons à des résumés linguistiques portant sur leur périodicité : les phrases que nous proposons indiquent à quel point une série est périodique et proposent une formulation linguistique appropriée de sa période. La méthode d’extraction proposée, nommée DPE pour Detection of Periodic Events, permet de segmenter les données de manière adaptative et sans paramètre utilisateur, en utilisant des outils issus de la morphologie mathématique. Ces segments sont ensuite utilisés pour calculer la période de la série temporelle ainsi que sa périodicité, calculée comme un degré de qualité sur le résultat renvoyé mesurant à quel point la série est périodique. Enfin, DPE génère des phrases comme « Environ toutes les 2 heures, l'afflux de client est important ». Des expériences sur des données artificielles et réelles confirment la pertinence de l'approche. D’un point de vue algorithmique, nous proposons une implémentation incrémentale et efficace de DPE, basée sur l’établissement de formules permettant le calcul de mises à jour des variables. Cette implémentation permet le passage à l'échelle de la méthode ainsi que l'analyse en temps réel de flux de données. Nous proposons également une extension de DPE basée sur le concept de périodicité locale permettant d'identifier les sous-séquences périodiques d'une série temporelle par l’utilisation d’un test statistique original. La méthode, validée sur des données artificielles et réelles, génère des phrases en langage naturel permettant d’extraire des informations du type « Toutes les deux semaines sur le premier semestre de l'année, les ventes sont élevées »
Our research is in the field of fuzzy linguistic summaries (FLS) that allow to generate natural language sentences to describe very large amounts of numerical data, providing concise and intelligible views of these data. We first focus on the interpretability of FLS, crucial to provide end-users with an easily understandable text, but hard to achieve due to its linguistic form. Beyond existing works on that topic, based on the basic components of FLS, we propose a general approach for the interpretability of summaries, considering them globally as groups of sentences. We focus more specifically on their consistency. In order to guarantee it in the framework of standard fuzzy logic, we introduce a new model of oppositions between increasingly complex sentences. The model allows us to show that these consistency properties can be satisfied by selecting a specific negation approach. Moreover, based on this model, we design a 4-dimensional cube displaying all the possible oppositions between sentences in a FLS and show that it generalises several existing logical opposition structures. We then consider the case of data in the form of numerical series and focus on linguistic summaries about their periodicity: the sentences we propose indicate the extent to which the series are periodic and offer an appropriate linguistic expression of their periods. The proposed extraction method, called DPE, standing for Detection of Periodic Events, splits the data in an adaptive manner and without any prior information, using tools from mathematical morphology. The segments are then exploited to compute the period and the periodicity, measuring the quality of the estimation and the extent to which the series is periodic. Lastly, DPE returns descriptive sentences of the form ``Approximately every 2 hours, the customer arrival is important''. Experiments with artificial and real data show the relevance of the proposed DPE method. From an algorithmic point of view, we propose an incremental and efficient implementation of DPE, based on established update formulas. This implementation makes DPE scalable and allows it to process real-time streams of data. We also present an extension of DPE based on the local periodicity concept, allowing the identification of local periodic subsequences in a numerical series, using an original statistical test. The method validated on artificial and real data returns natural language sentences that extract information of the form ``Every two weeks during the first semester of the year, sales are high''
APA, Harvard, Vancouver, ISO, and other styles
23

Rouy, Jean-Pierre. "Décomposition cycle-tendance des données françaises désagrégées." Paris 1, 1998. http://www.theses.fr/1998PA010027.

Full text
Abstract:
La mesure du cycle économique est un enjeu essentiel de la macro-économie contemporaine. Elle permet d'établir des faits tant quantitatifs que qualitatifs que les modèles théoriques doivent reproduire. Les variables retenues ici sont dites désagrégées et concernent plus précisément l'évolution trimestrielle des principales branches de l'industrie française de 1963 à 1993. Plusieurs techniques d'identification des différentes composantes formant une série temporelle sont étudiées. Traitant de la non stationnarité des variables de façon différente, elles en extraient une information différente. Les méthodes de filtrage, telles que celle de Hodrick-Prescott ou de Baxter-King, considèrent que l'on a une connaissance au préalable de la durée des cycles économiques. A contrario, les modèles à composantes inobservables, tels que ceux proposés par Harvey, supposent que l'on a une idée a priori de la représentation économétrique de chaque composante. Bien que fondées sur une vision similaire du comportement à long terme de l'économie, ces méthodes livrent des composantes cycliques différentes. Néanmoins, elles nous permettent de dresser un calendrier des fluctuations des différentes productions sectorielles et d'en effectuer l'étude morphologique selon les préceptes du NBER. Dans le cadre multivarié, les principes de cointégration et de coévolution indiquent le nombre de tendances communes et de cycles communs existants dans les variables. La formulation de marchés aléatoires dans la composante permanente des séries conduit à souligner la pluralité des chocs s'exerçant sur les secteurs industriels et le nombre relativement important d'impulsions à l'origine de leur croissance. Cette thèse montre que la compréhension du cycle dépend étroitement de la méthode retenue pour son identification et des hypothèses qu'elle implique. Cette abondance des techniques n'est pas un obstacle à la compréhension des phénomènes économiques mais un témoignage de leur complexité
Measuring business cycles is at the forefront of modern economic research. It provides stylized facts can be used to examine quantitative and qualitative validity of theoretical models. The disaggregated studied data are the production of intermediate, equipment and consumer goods sectors in france from 1963 to 1993. Several identifying methods are used. Based on different concepts of buisiness cycle fluctuations. They extract different types of information from the original series. The filtering tools, proposed among others by hodrick-prescott or baxter-king, imply we have knowledge of cycle duration. Conversely, the key identifying assumptions of the harvey unobserved components models are an explicit econometric representation of each component. Although the long run economic representation of these methods is the same, they give us different short term cyclical characteristics. Nevertheless, we propose in this study a chronology for each french manufacturing production and describe their morphology in the nber's spirit. In multivariate case, cointegration and codependance principles indicate the number of common trends and common cycles existing in series. The presence of random walks in permanent components leads to emphasize that large number of shocks are responsible of production growth rates. This study shows that properties of business cycle vary widely across different detrending methods. This is not an obstacle to understand economic facts but an evidence of their complexity
APA, Harvard, Vancouver, ISO, and other styles
24

Bayar, Mohamed Amine. "Randomized Clinical Trials in Oncology with Rare Diseases or Rare Biomarker-based Subtypes." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS441.

Full text
Abstract:
Le design standard des essais randomisés de phase III suppose le recrutement d'un grand nombre de patients pour assurer un risque α de 0.025 unilatéral et une puissance d'au moins 80%. Ceci s'avérer difficile dans les maladies rares, ou encore si le traitement cible une population spécifique définie par un sous-type moléculaire rare. Nous avons évalué par simulation la performance d'une série d'essais randomisés. Au terme de chaque essai, s'il est associé à une amélioration significative, le traitement expérimental devient le contrôle de l'essai suivant. Les designs ont été évalués pour différents taux de recrutement, différentes sévérités de la maladie, et différentes distributions hypothétiques des effets d'un futur traitement. Nous avons montré, que sous des hypothèses raisonnables, une série d'essais de plus petite taille et avec un risque α relâché est associée à un plus grand bénéfice à long terme que deux essais de design standard. Nous avons enrichi cette approche avec des designs plus flexibles incluant des analyses intermédiaires d'efficacité et/ou futilité, et des designs adaptatifs à trois bras avec sélection de traitement. Nous avons montré qu'une analyse intermédiaire avec une règle d'arrêt pour futilité était associé à un gain supplémentaire et à une meilleure maitrise du risque, contrairement aux règles d'arrêt pour efficacité qui ne permettent pas d'améliorer la performance. Les séries d'essais à trois bras sont systématiquement plus performants que les séries d'essais à deux bras. Dans la troisième de la thèse, nous avons étudié les essais randomisés évaluant un algorithme de traitement plutôt que l'efficacité d'un seul traitement. Le traitement expérimental est déterminé selon la mutation. Nous avons comparé deux méthodes basées sur le modèles de Cox à effets aléatoires pour l'estimation de l'effet traitement dans chaque mutation : Maximum Integrated Partial Likellihood (MIPL) en utilisant le package coxme et Maximum H-Likelihood (MHL) en utilisant le package frailtyHL. La performance de la méthode MIPL est légèrement meilleure. En présence d'un effet traitement hétérogène, les deux méthodes sousestime l'effet dans les mutations avec un large effet, et le surestime dans les mutations avec un modeste effet
Large sample sizes are required in randomized trials designed to meet typical one-sided α-level of 0.025 and at least 80% power. This may be unachievable in a reasonable time frame even with international collaborations. It is either because the medical condition is rare, or because the trial focuses on an uncommon subset of patients with a rare molecular subtype where the treatment tested is deemed relevant. We simulated a series of two-arm superiority trials over a long research horizon (15 years). Within the series of trials, the treatment selected after each trial becomes the control treatment of the next one. Different disease severities, accrual rates, and hypotheses of how treatments improve over time were considered. We showed that compared with two larger trials with the typical one-sided α-level of 0.025, performing a series of small trials with relaxed α-levels leads on average to larger survival benefits over a long research horizon, but also to higher risk of selecting a worse treatment at the end of the research period. We then extended this framework with more 'flexible' designs including interim analyses for futility and/or efficacy, and three-arm adaptive designs with treatment selection at interim. We showed that including an interim analysis with a futility rule is associated with an additional survival gain and a better risk control as compared to series with no interim analysis. Including an interim analysis for efficacy yields almost no additional gain. Series based on three-arm trials are associated with a systematic improvement of the survival gain and the risk control as compared to series of two-arm trials. In the third part of the thesis, we examined the issue of randomized trials evaluating a treatment algorithm instead of a single drugs' efficacy. The treatment in the experimental group depends on the mutation, unlike the control group. We evaluated two methods based on the Cox frailty model to estimate the treatment effect in each mutation: Maximum Integrated Partial Likellihood (MIPL) using package coxme and Maximum H-Likelihood (MHL) using package frailtyHL. MIPL method performs slightly better. In presence of a heterogeneous treatment effect, the two methods underestimate the treatment effect in mutations where the treatment effect is large, and overestimates the treatment effect in mutations where the treatment effect is small
APA, Harvard, Vancouver, ISO, and other styles
25

Paquin, Jean. "Développement d'algorithmes pour l'analyse des séries temporelles des données de production d'eau potable." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2000. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape4/PQDD_0017/MQ56951.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
26

Cuenca, Pauta Erick. "Visualisation de données dynamiques et complexes : des séries temporelles hiérarchiques aux graphes multicouches." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS054/document.

Full text
Abstract:
L'analyse de données de plus en plus complexes, volumineuses et issues de différentes sources (e.g. internet, médias sociaux, etc.) est une tâche difficile. Elle reste cependant cruciale dans de très nombreux domaines d'application. Elle implique, pour pouvoir en extraire des connaissances, de mieux comprendre la nature des données, leur évolution ou les nombreuses relations complexes qu'elles peuvent contenir. La visualisation d'informations s'intéresse aux méthodes de représentations visuelles et interactives permettant d'aider un utilisateur à extraire des connaissances. C'est dans ce contexte que se situe le travail présenté dans ce mémoire. Dans un premier temps, nous nous intéressons à la visualisation de longues séries temporelles hiérarchiques. Après avoir analysé les différentes approches existantes, nous présentons le système MultiStream permettant de visualiser, explorer et comparer l'évolution de séries organisées dans une structure hiérarchique. Nous illustrons son utilisation par deux exemples d'utilisation : émotions exprimées dans des médias sociaux et évolution des genres musicaux. Dans un second temps nous abordons la problématique de données complexes modélisées sous la forme de graphes multicouches (différentes types d'arêtes peuvent relier les n÷uds). Plus particulièrement nous nous intéressons au requêtage visuel de graphes volumineux en présentant VERTIGo un système qui permet de construire des requêtes, d'interroger un moteur spécifique, de visualiser/explorer les résultats à différentes niveaux de détail et de suggérer de nouvelles extensions de requêtes. Nous illustrons son utilisation à l'aide d'un graphe d'auteurs provenant de différentes communautés
The analysis of data that is increasingly complex, large and from different sources (e.g. internet, social medias, etc.) is a dificult task. However, it remains crucial for many fields of application. It implies, in order to extract knowledge, to better understand the nature of the data, its evolution or the many complex relationships it may contain. Information visualization is about visual and interactive representation methods to help a user to extract knowledge. The work presented in this document takes place in this context. At first, we are interested in the visualization of large hierarchical time series. After analyzing the different existing approaches, we present the MultiStream system for visualizing, exploring and comparing the evolution of the series organized into a hierarchical structure. We illustrate its use by two examples: emotions expressed in social media and the evolution of musical genres. In a second time, we tackle the problem of complex data modeled in the form of multilayer graphs (different types of edges can connect the nodes). More specifically, we are interested in the visual querying of large graphs and we present VERTIGo, a system which makes it possible to build queries, to launch them on a specific engine, to visualize/explore the results at different levels of details and to suggest new query extensions. We illustrate its use with a graph of co-authors from different communities
APA, Harvard, Vancouver, ISO, and other styles
27

Walwer, Damian. "Dynamique non linéaire des systèmes volcaniques à partir des données géodésiques." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE004/document.

Full text
Abstract:
Nous étudions dans un premier temps l'intérêt de l'utilisation de la "multichannel singular spectrum analysis" (M-SSA) sur des séries temporelles de positionnements GPS. Cette méthode permet de simultanément analyser un ensemble de séries temporelles et d'en extraire des modes de variabilités communs sans utiliser d'information a priori sur les structures spatiales et temporelles des champs géophysiques. Ces modes correspondent à des tendances non linéaires, des oscillations ou du bruit. Nous l'appliquons à des données enregistrées sur le volcan Akutan en Alaska. Nous y extrayons deux types de signaux. L'un correspondant à des déformations dites saisonnières, l'autre représentant deux cycles d'inflations et de déflations successifs du volcan Akutan. Les inflations sont rapides et courtes et suivies de déflations plus lentes et plus longues. Dans une seconde partie nous tirons parti de la M-SSA pour analyser des séries temporelles enregistrées sur plusieurs volcans. Les volcans Okmok et Shishaldin en Alaska et le Piton de la Fournaise à la Réunion possèdent une partie de leurs histoires de déformations qui est similaire à celle d'Akutan. Le caractère oscillatoire de ces cycles de déformations est comparé au régime oscillatoire d'un simple oscillateur non linéaire. Les données pétrologiques, géochimiques et géophysiques disponibles pour Okmok et le Piton de la Fournaise combinées aux contraintes sur la dynamique apportées par l'oscillateur non linéaire permet de proposer un modèle physique. Deux réservoirs superficiels sont connectés par un conduit cylindrique dans lequel le magma possède une viscosité qui dépend de la température. Un tel système se comporte de manière similaire à l'oscillateur non linéaire étudié précédemment. Lorsque que le gradient de température vertical présent dans le fluide est suffisamment important et que le flux de magma entrant dans le système de réservoirs est compris entre deux valeurs déterminées analytiquement un régime oscillatoire se met en place
We study the use of the "multichannel singular spectrum analysis" on GPS time series. This method allows to simultaneously analyze a set of time series in order to extract from it common modes of variability without using any a priori on the temporal or the spatial structure of geophysical fields. The extracted modes correspond either to nonlinear trends, oscillations or noise. The method is applied on a set of GPS time series recorded at Akutan, a volcano located in Aleutian arc in Alaska. Two types of signals are extracted from it. The first one corresponds to seasonal deformations and the other represents two successive cycles of inflation and subsidence of Akutan volcano. The inflations are fast and short and are followed by deflations that are slower and longer. In the second part we take benefit of the M-SSA to analyze GPS time series recorded at several volcanoes. Okmok and Shishaldin in Alaska and Piton de la Fournaise in La Réunion possess a part of their deformation history that is similar to Akutan volcano. The cyclic nature of the observed deformations leads us to make an analogy between the oscillatory regime of a simple nonlinear oscillator and the deformation cycles of these volcanoes. Geochemical, petrological and geophysical data available for Okmok and Piton de la Fournaise combined with the constraint on the qualitative dynamics bring by the nonlinear oscillator allow to propose a physical model. Two shallow reservoirs are connected by a cylindrical conduit in which the magma have a viscosity that depends on the temperature. Such system behaves like the nonlinear oscillator mentioned above. When the temperature gradient inside theconduit is large enough and the flux of magma entering the shallow system is bounded by values that are determined analytically anonlinear oscillatory regime arises
APA, Harvard, Vancouver, ISO, and other styles
28

Ben, Salem Mélika. "Changement structurel et croissance : essai d'économétrie comparative sur données françaises et américaines." Paris 1, 1997. http://www.theses.fr/1997PA010078.

Full text
Abstract:
Cette thèse étudie les implications empiriques des modélisations de la croissance usuellement considérées aujourd'hui, à savoir croissance exogène à la Solow-Swan (1956) et croissance endogène à la Römer (1986,1990). Suivant la nature des chocs et le modèle de croissance analyse, les variables macroéconomiques possèdent des propriétés statistiques de persistance dont les sources peuvent être communes. Ces propriétés sont alors testées, en utilisant les outils et les concepts de la théorie récente de l'économétrie des séries temporelles, afin d'identifier, à partir des observations empiriques, la nature des mécanismes à l'œuvre. La stabilité de la composante tendancielle des agrégats macroéconomiques de la sphère réelle (PIB, stock de capital, volume des heures travaillées), ainsi que celle de l'interdépendance entre production et facteurs de production est analysée à partir des données françaises et américaines sur longue période (1870-1994) en fréquence annuelle et sur la période d'après-guerre en fréquence trimestrielle
This dissertation analyses the empirical implications of growth models, a la Solow-Swan (1956) and Romer (1986,1990). According to the nature of the shocks affecting the economy and the nature of growth (exogenous or endogenous), the macroeconomic variables are characterized by particular statistical properties of persistence, that may originate from a common source. These statistical properties are tested in the framework of new time series methods, in order to reveal the propagation mechanisms of growth from data. Thus the stability of trend component in output, capital and hours worked, as well as the constancy of connections between production and its usual inputs, is studied in french and american data, with annual observations during the period 1870-1994, and at a quarterly rate with postwar observations
APA, Harvard, Vancouver, ISO, and other styles
29

Baudry, Maximilien. "Quelques problèmes d’apprentissage statistique en présence de données incomplètes." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSE1002.

Full text
Abstract:
La plupart des méthodes statistiques ne sont pas nativement conçues pour fonctionner sur des données incomplètes. L’étude des données incomplètes n’est pas nouvelle et de nombreux résultats ont été établis pour pallier l’incomplétude en amont de l’étude statistique. D’autre part, les méthodes de deep learning sont en général appliquées à des données non structurées de type image, texte ou audio, mais peu de travaux s’intéressent au développement de ce type d’approche sur des données tabulaires, et encore moins sur des données incomplètes. Cette thèse se concentre sur l’utilisation d’algorithmes de machine learning appliqués à des données tabulaires, en présence d’incomplétude et dans un cadre assurantiel. Au travers des contributions regroupées dans ce document, nous proposons différentes façons de modéliser des phénomènes complexes en présence de schémas d’incomplétude. Nous montrons que les approches proposées donnent des résultats de meilleure qualité que l’état de l’art
Most statistical methods are not designed to directly work with incomplete data. The study of data incompleteness is not new and strong methods have been established to handle it prior to a statistical analysis. On the other hand, deep learning literature mainly works with unstructured data such as images, text or raw audio, but very few has been done on tabular data. Hence, modern machine learning literature tackling data incompleteness on tabular data is scarce. This thesis focuses on the use of machine learning models applied to incomplete tabular data, in an insurance context. We propose through our contributions some ways to model complex phenomena in presence of incompleteness schemes, and show that our approaches outperform the state-of-the-art models
APA, Harvard, Vancouver, ISO, and other styles
30

Ben, othmane Zied. "Analyse et visualisation pour l'étude de la qualité des séries temporelles de données imparfaites." Thesis, Reims, 2020. http://www.theses.fr/2020REIMS002.

Full text
Abstract:
Dans ce travail de thèse, nous nous intéressons à la qualité des informations récoltées par des capteurs sur le web. Ces données forment des séries de données temporelles qui sont incomplètes et imprécises, et sont sur des échelles quantitatives peu comparables. Dans ce contexte, nous nous intéressons plus particulièrement à la variabilité et la stabilité de ces séries temporelles. Nous proposons deux approches pour les quantifier. La première se base sur une représentation à l'aide des quantiles, la seconde est une approche floue. A l'aide de ces indicateurs, nous proposons un outil de visualisation interactive dédié à l'analyse de la qualité des récoltes effectuées par les capteurs. Ce travail s'inscrit dans une collaboration CIFRE avec la société Kantar
This thesis focuses on the quality of the information collected by sensors on the web. These data form time series that are incomplete, imprecise, and are on quantitative scales that are not very comparable. In this context, we are particularly interested in the variability and stability of these time series. We propose two approaches to quantify them. The first is based on a representation using quantiles, the second is a fuzzy approach. Using these indicators, we propose an interactive visualization tool dedicated to the analysis of the quality of the harvest carried out by the sensors. This work is part of a CIFRE collaboration with Kantar
APA, Harvard, Vancouver, ISO, and other styles
31

Benkabou, Seif-Eddine. "Détection d’anomalies dans les séries temporelles : application aux masses de données sur les pneumatiques." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1046/document.

Full text
Abstract:
La détection d'anomalies est une tâche cruciale qui a suscité l'intérêt de plusieurs travaux de recherche dans les communautés d'apprentissage automatique et fouille de données. La complexité de cette tâche dépend de la nature des données, de la disponibilité de leur étiquetage et du cadre applicatif dont elles s'inscrivent. Dans le cadre de cette thèse, nous nous intéressons à cette problématique pour les données complexes et particulièrement pour les séries temporelles uni et multi-variées. Le terme "anomalie" peut désigner une observation qui s'écarte des autres observations au point d'éveiller des soupçons. De façon plus générale, la problématique sous-jacente (aussi appelée détection de nouveautés ou détection des valeurs aberrantes) vise à identifier, dans un ensemble de données, celles qui différent significativement des autres, qui ne se conforment pas à un "comportement attendu" (à définir ou à apprendre automatiquement), et qui indiquent un processus de génération différent. Les motifs "anormaux" ainsi détectés se traduisent souvent par de l'information critique. Nous nous focalisons plus précisément sur deux aspects particuliers de la détection d'anomalies à partir de séries temporelles dans un mode non-supervisé. Le premier est global et consiste à ressortir des séries relativement anormales par rapport une base entière. Le second est dit contextuel et vise à détecter localement, les points anormaux par rapport à la structure de la série étudiée. Pour ce faire, nous proposons des approches d'optimisation à base de clustering pondéré et de déformation temporelle pour la détection globale ; et des mécanismes à base de modélisation matricielle pour la détection contextuelle. Enfin, nous présentons une série d'études empiriques sur des données publiques pour valider les approches proposées et les comparer avec d'autres approches connues dans la littérature. De plus, une validation expérimentale est fournie sur un problème réel, concernant la détection de séries de prix aberrants sur les pneumatiques, pour répondre aux besoins exprimés par le partenaire industriel de cette thèse
Anomaly detection is a crucial task that has attracted the interest of several research studies in machine learning and data mining communities. The complexity of this task depends on the nature of the data, the availability of their labeling and the application framework on which they depend. As part of this thesis, we address this problem for complex data and particularly for uni and multivariate time series. The term "anomaly" can refer to an observation that deviates from other observations so as to arouse suspicion that it was generated by a different generation process. More generally, the underlying problem (also called novelty detection or outlier detection) aims to identify, in a set of data, those which differ significantly from others, which do not conform to an "expected behavior" (which could be defined or learned), and which indicate a different mechanism. The "abnormal" patterns thus detected often result in critical information. We focus specifically on two particular aspects of anomaly detection from time series in an unsupervised fashion. The first is global and consists in detecting abnormal time series compared to an entire database, whereas the second one is called contextual and aims to detect locally, the abnormal points with respect to the global structure of the relevant time series. To this end, we propose an optimization approaches based on weighted clustering and the warping time for global detection ; and matrix-based modeling for the contextual detection. Finally, we present several empirical studies on public data to validate the proposed approaches and compare them with other known approaches in the literature. In addition, an experimental validation is provided on a real problem, concerning the detection of outlier price time series on the tyre data, to meet the needs expressed by, LIZEO, the industrial partner of this thesis
APA, Harvard, Vancouver, ISO, and other styles
32

Assaad, Mohammad. "Un nouvel algorithme de boosting pour les réseaux de neurones récurrents : application au traitement des données sequentielles." Tours, 2006. http://www.theses.fr/2006TOUR4024.

Full text
Abstract:
Les travaux de cette thèse concernent la proposition d'un nouvel algorithme de boosting dédié au problème de l'apprentissage des dépendances temporelles pour la prévision de séries temporelles, en utilisant comme régresseurs des réseaux de neurones récurrents. Cet algorithme se base sur la méthode du boosting : il permet de concentrer l'apprentissage sur les exemples difficiles mais, à la différence de l'algorithme d'origine, en prenant en compte tous les exemples disponibles. Un nouveau paramètre est utilisé pour régler l'influence du boosting. Pour évaluer notre algorithme, des expérimentations systématiques ont été menées sur deux types de problèmes temporels : la prévision à un pas de temps et la prévision multipas. Les résultats obtenus sur plusieurs séries de référence sont parmi les plus performants présentés dans la littérature
The work of this thesis deals with the proposal of a new boosting algorithm dedicated to the problem of learning time-dependencies for the time series prediction, using recurrent neural networks as regressors. This algorithm is based on the boosting algorith and allows concentrating the training on difficult examples. A new parameter is introduced to regulate the influence of boosting. To evaluate our algorithm, systematic experiments were carried out on two types of problems of time series prediction : single-step ahead predicton and multi-step ahead prediction. The results obtained from several series of reference are close to the best results reported in the literature
APA, Harvard, Vancouver, ISO, and other styles
33

Lazar, Cosmin. "Méthodes non supervisées pour l’analyse des données multivariées." Reims, 2008. http://theses.univ-reims.fr/exl-doc/GED00000846.pdf.

Full text
Abstract:
Tous les domaines de la science nécessitent d’analyser des données qu’il s’agisse des sciences humaines ou des sciences exactes et naturelles. Ces données peuvent être de nature différente et dans des nombreuses situations elles représentent plusieurs enregistrements du même phénomène physique, elles sont regroupées dans des bases des données multivariées que l’on cherche à interpréter. Leur interprétation requiert la connaissance du domaine d’application qui sert de guide afin d’extraire l’information utile pour la compréhension des phénomènes étudiés. Une étape essentielle dans ce processus est le regroupement des données ayant des caractéristiques similaires dans des classes ; cette étape est appelée classification non supervisée (ou automatique) ou clustering. Concernant ce domaine d’analyse, des questions restent ouvertes comme la dimension intrinsèque et la réduction de dimension des données multivariées, le choix de la mesure de similarité ou la validation du nombre de classes. Ce travail apporte des contributions aux deux questions précédentes : le choix de la mesure de similarité pour la classification non supervisée et la réduction de dimension de données multivariées. Le phénomène de concentration des métriques est étudié et la pertinence de métriques non euclidiennes comme mesure de similarité dans de problèmes de classification est testée. Des indices prenant en compte la distance interclasse sont proposés pour choisir la métrique optimale si les classes sont gaussiennes. Les méthodes de séparation aveugle de sources sont étudiées dans le contexte de la réduction de dimension ; une méthode de SAS basée sur une interprétation géométrique du modèle de mélange linéaire est proposée. Des méthodes de SAS prenant en compte les contraintes des applications sont utilisées pour la réduction de dimension dans deux applications en imagerie multivariée. Celles-ci permettent la mise en évidence de facteurs physiquement interprétables ainsi que la réduction de la complexité des algorithmes de classification utilisés pour l’analyse. Les travaux sont illustrés sur deux applications sur des données réelles
Many scientific disciplines deal with multivariate data. Different recordings of the same phenomenon are usually embedded in a multivariate data set. Multivariate data analysis gathers efficient tools for extracting relevant information in order to comprehend the phenomenon in study. Gathering data into groups or classes according to some similarity criteria is an essential step in the analysis. Intrinsic dimension or dimension reduction of multivariate data, the choice of the similarity criterion, cluster validation are problems which still let open questions. This work tries to make a step further concerning two of the problems mentioned above: the choice of the similarity measure for data clustering and the dimension reduction of multivariate data. The choice of the similarity measure for data clustering is investigated from the concentration phenomenon of metrics point of view. Non Euclidean metrics are tested as alternative to the classical Euclidian distance as similarity measure. We tested if less concentrated metrics are more discriminative for multivariate data clustering. We also proposed indices which take into account the inter-classes distance (e. G. Davies-Bouldin index) in order to find the optimal metric when the classes are supposed to be Gaussian. Blind Source Separation (BSS) methods are also investigated for dimension reduction of multivariate data. A BSS method based on a geometrical interpretation of the linear mixing model is proposed. BSS methods which take into account application constraints are used for dimension reduction in two different applications of multivariate imaging. These methods allow the extraction of meaningful factors from the whole data set; they also allow reducing the complexity and the computing time of the clustering algorithms which are used further in analysis. Applications on multivariate image analysis are also presented
APA, Harvard, Vancouver, ISO, and other styles
34

Wu, Fei. "Knowledge discovery in time-series databases." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0023.

Full text
Abstract:
@Aborde trois problématiques dans le contexte de la base de données temporelles. Ils sont le problème de regroupement, la similarité et l'extraction des stratégies. Il reste encore des problèmes pour les travaux futurs. Par exemple, comment réaliser le regroupement graduel pour d'autres algorithmes. Il sera intéressant de grouper des séquences en se basant sur notre nouveau modèle. Mais les questions posées sont le choix d'un algorithme, ou il faut un nouvel algorithme carrément ? Pour construire une stratégie, ce sera aussi possible de pré-définir nos actions. Puis trouver les relations entre les actions et les indicateurs correspondants afin de générer des stratégies. . .
APA, Harvard, Vancouver, ISO, and other styles
35

Olteanu, Madalina. "Modèles à changements de régime : applications aux données financières." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2006. http://tel.archives-ouvertes.fr/tel-00133132.

Full text
Abstract:
Cette thèse s'organise autour du but suivant : comment trouver un bon modèle pour les séries temporelles qui subissent des changements de comportement? L'application qui a motivé cette question est la caractérisation des crises financières à l'aide d'un indice des chocs de marché inspiré de la géophysique et de modèles hybrides à changements de régime intégrant des perceptrons multi-couches. Les résultats obtenus sur les données fournissent une séparation intéressante entre deux états relatifsà deux comportements différents du marché, mais des questions sur la sélection de modèles et le choix du nombre de régimes se posent alors naturellement.
On propose d'étudier ces questions à travers deux approches. Dans la première, il s'agit de montrer la consistance faible d'un estimateur de maximum de vraisemblance pénalisée sous des conditions de stationnarité et dépendance faible. Les hypothèses introduites sur l'entropie à crochets de la classe des fonctions scores généralisés sont ensuite vérifiées dans un cadre linéaire et gaussien. La deuxième approche, plutôt empirique, est issue des méthodes de classification non-supervisée et combine les cartes de Kohonen avec une classification hiérarchique pour laquelle une nouvelle dispersion basée sur la somme des carrés résiduelle est introduite.
APA, Harvard, Vancouver, ISO, and other styles
36

Rahier, Thibaud. "Réseaux Bayésiens pour fusion de données statiques et temporelles." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM083/document.

Full text
Abstract:
La prédiction et l'inférence sur des données temporelles sont très souvent effectuées en utilisant uniquement les séries temporelles. Nous sommes convaincus que ces tâches pourraient tirer parti de l'utilisation des métadonnées contextuelles associées aux séries temporelles, telles que l'emplacement, le type, etc. Réciproquement, les tâches de prédiction et d'inférence sur les métadonnées pourraient bénéficier des informations contenues dans les séries temporelles. Cependant, il n'existe pas de méthode standard pour modéliser conjointement les données de séries temporelles et les métadonnées descriptives. De plus, les métadonnées contiennent fréquemment des informations hautement corrélées ou redondantes et peuvent contenir des erreurs et des valeurs manquantes.Nous examinons d’abord le problème de l’apprentissage de la structure graphique probabiliste inhérente aux métadonnées en tant que réseau Bayésien. Ceci présente deux avantages principaux: (i) une fois structurées en tant que modèle graphique, les métadonnées sont plus faciles à utiliser pour améliorer les tâches sur les données temporelles et (ii) le modèle appris permet des tâches d'inférence sur les métadonnées uniquement, telles que l'imputation de données manquantes. Cependant, l'apprentissage de la structure de réseau Bayésien est un défi mathématique conséquent, impliquant un problème d'optimisation NP-difficile. Pour faire face à ce problème, nous présentons un algorithme d'apprentissage de structure sur mesure, inspiré de nouveaux résultats théoriques, qui exploite les dépendances (quasi)-déterministes généralement présentes dans les métadonnées descriptives. Cet algorithme est testé sur de nombreux jeux de données de référence et sur certains jeux de métadonnées industriels contenant des relations déterministes. Dans les deux cas, il s'est avéré nettement plus rapide que l'état de la l'art, et a même trouvé des structures plus performantes sur des données industrielles. De plus, les réseaux Bayésiens appris sont toujours plus parcimonieux et donc plus lisibles.Nous nous intéressons ensuite à la conception d'un modèle qui inclut à la fois des (méta)données statiques et des données temporelles. En nous inspirant des modèles graphiques probabilistes pour les données temporelles (réseaux Bayésiens dynamiques) et de notre approche pour la modélisation des métadonnées, nous présentons une méthodologie générale pour modéliser conjointement les métadonnées et les données temporelles sous forme de réseaux Bayésiens hybrides statiques-dynamiques. Nous proposons deux algorithmes principaux associés à cette représentation: (i) un algorithme d'apprentissage qui, bien qu'optimisé pour les données industrielles, reste généralisable à toute tâche de fusion de données statiques et dynamiques, et (ii) un algorithme d'inférence permettant les d'effectuer à la fois des requêtes sur des données temporelles ou statiques uniquement, et des requêtes utilisant ces deux types de données.%Nous fournissons ensuite des résultats sur diverses applications inter-domaines telles que les prévisions, le réapprovisionnement en métadonnées à partir de séries chronologiques et l’analyse de dépendance d’alarmes en utilisant les données de certains cas d’utilisation difficiles de Schneider Electric.Enfin, nous approfondissons certaines des notions introduites au cours de la thèse, et notamment la façon de mesurer la performance en généralisation d’un réseau Bayésien par un score inspiré de la procédure de validation croisée provenant de l’apprentissage automatique supervisé. Nous proposons également des extensions diverses aux algorithmes et aux résultats théoriques présentés dans les chapitres précédents, et formulons quelques perspectives de recherche
Prediction and inference on temporal data is very frequently performed using timeseries data alone. We believe that these tasks could benefit from leveraging the contextual metadata associated to timeseries - such as location, type, etc. Conversely, tasks involving prediction and inference on metadata could benefit from information held within timeseries. However, there exists no standard way of jointly modeling both timeseries data and descriptive metadata. Moreover, metadata frequently contains highly correlated or redundant information, and may contain errors and missing values.We first consider the problem of learning the inherent probabilistic graphical structure of metadata as a Bayesian Network. This has two main benefits: (i) once structured as a graphical model, metadata is easier to use in order to improve tasks on temporal data and (ii) the learned model enables inference tasks on metadata alone, such as missing data imputation. However, Bayesian network structure learning is a tremendous mathematical challenge, that involves a NP-Hard optimization problem. We present a tailor-made structure learning algorithm, inspired from novel theoretical results, that exploits (quasi)-determinist dependencies that are typically present in descriptive metadata. This algorithm is tested on numerous benchmark datasets and some industrial metadatasets containing deterministic relationships. In both cases it proved to be significantly faster than state of the art, and even found more performant structures on industrial data. Moreover, learned Bayesian networks are consistently sparser and therefore more readable.We then focus on designing a model that includes both static (meta)data and dynamic data. Taking inspiration from state of the art probabilistic graphical models for temporal data (Dynamic Bayesian Networks) and from our previously described approach for metadata modeling, we present a general methodology to jointly model metadata and temporal data as a hybrid static-dynamic Bayesian network. We propose two main algorithms associated to this representation: (i) a learning algorithm, which while being optimized for industrial data, is still generalizable to any task of static and dynamic data fusion, and (ii) an inference algorithm, enabling both usual tasks on temporal or static data alone, and tasks using the two types of data.%We then provide results on diverse cross-field applications such as forecasting, metadata replenishment from timeseries and alarms dependency analysis using data from some of Schneider Electric’s challenging use-cases.Finally, we discuss some of the notions introduced during the thesis, including ways to measure the generalization performance of a Bayesian network by a score inspired from the cross-validation procedure from supervised machine learning. We also propose various extensions to the algorithms and theoretical results presented in the previous chapters, and formulate some research perspectives
APA, Harvard, Vancouver, ISO, and other styles
37

Coelho, Rodrigues Pedro Luiz. "Exploration des invariances de séries temporelles multivariées via la géométrie Riemannienne : validation sur des données EEG." Electronic Thesis or Diss., Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT095.

Full text
Abstract:
L’utilisation de séries temporelles multi-variées est une procédure standard pour décrire et analyser des mesures enregistrées par plusieurs capteurs au cours d’une expérience. Dans ce travail, nous discutons certains aspects de ces représentations temporelles, invariants aux transformations qui peuvent se produire en situations pratiques. Nos recherches s’inspirent en grande partie d’expériences neurophysiologiques reposant sur l’enregistrement de l’activité cérébrale au moyen de l'électroencéphalographie (EEG), mais les idées que nous présentons ne sont pas restreintes à ce cas particulier et peuvent s’étendre à d'autres types de séries temporelles.La première invariance sur laquelle nous portons notre attention est celle de la dimensionalité des séries temporelles multi-variées. Bien souvent, les signaux enregistrés par des capteurs voisins présentent une forte dépendance statistique entre eux. Nous introduisons donc l’utilisation de techniques permettant d’éliminer la redondance des signaux corrélés et d’obtenir de nouvelles représentations du même phénomène en dimension réduite.La deuxième invariance que nous traitons est liée à des séries temporelles qui décrivent le même phénomène mais sont enregistrées dans des conditions expérimentales différentes. Par exemple, des signaux enregistrés avec le même appareil expérimental, mais à différents jours de la semaine ou sur différents sujets, etc. Dans de tels cas, malgré une variabilité sous-jacente, les séries temporelles multi-variées partagent certains points communs qui peuvent être exploités par une analyse conjointe. En outre, la réutilisation des informations déjà disponibles à partir d'autres jeux de données est une idée très séduisante et permet l’utilisation de méthodes d'apprentissage automatiques dites «data-efficient». Nous présentons une procédure originale d’apprentissage par transfert qui transforme les séries temporelles de telle sorte que leurs distributions statistiques soient alignées et puissent être regroupées pour une analyse statistique plus poussée.Enfin, nous étendons le cas précédent au contexte où les séries temporelles sont obtenues à partir de différentes conditions expérimentales et de différentes configurations d’enregistrement de données. Nous présentons une méthode originale qui transforme ces séries temporelles multi-variées afin qu'elles deviennent compatibles en termes de dimensionalité et de distributions statistiques.Nous illustrons les techniques citées ci-dessus en les appliquant à des signaux EEG enregistrés dans le cadre d’expériences d’interface cerveau-ordinateur (BCI). Nous montrons sur plusieurs exemples, avec des simulations et des données réelles, que la réduction de dimension - judicieusement choisie - de la série temporelle multi-variée n’affecte pas les performances de classifieurs statistiques utilisés pour déterminer la classe des signaux, et que notre méthode de transfert d'apprentissage et de compatibilité de dimensionalité apporte des améliorations remarquables en matière de classification inter-sessions et inter-sujets.Pour explorer les invariances présentées ci-dessus, nous nous appuyons sur l’utilisation de matrices Hermitiennes définies positives (HPD) afin de décrire les statistiques des séries temporelles multi-variées. Nous manipulons ces matrices en considérant qu’elles reposent dans une variété Riemannienne pour laquelle une métrique adéquate est choisie. Nous utilisons des concepts issus de la géométrie Riemannienne pour définir des notions telles que la distance géodésique, le centre de masse ou encore les classifieurs statistiques de séries temporelles. Cette approche repose sur les résultats fondamentaux de la géométrie différentielle pour les matrices Hermitiennes définies positives et est liée à d'autres domaines bien établis en mathématiques appliquées, tels que la géométrie de l'information et le traitement du signal
Multivariate time series are the standard tool for describing and analysing measurements from multiple sensors during an experiment. In this work, we discuss different aspects of such representations that are invariant to transformations occurring in practical situations. The main source of inspiration for our investigations are experiments with neural signals from electroencephalography (EEG), but the ideas that we present are amenable to other kinds of time series.The first invariance that we consider concerns the dimensionality of the multivariate time series. Very often, signals recorded from neighbouring sensors present strong statistical dependency between them. We present techniques for disposing of the redundancy of these correlated signals and obtaining new multivariate time series that represent the same phenomenon but in a smaller dimension.The second invariance that we treat is related to time series describing the same phenomena but recorded under different experimental conditions. For instance, signals recorded with the same experimental apparatus but on different days of the week, different test subjects, etc. In such cases, despite an underlying variability, the multivariate time series share certain commonalities that can be exploited for joint analysis. Moreover, reusing information already available from other datasets is a very appealing idea and allows for “data-efficient” machine learning methods. We present an original transfer learning procedure that transforms these time series so that their statistical distributions become aligned and can be pooled together for further statistical analysis.Finally, we extend the previous case to when the time series are obtained from different experimental conditions and also different experimental setups. A practical example is having EEG recordings from subjects executing the same cognitive task but with the electrodes positioned differently. We present an original method that transforms these multivariate time series so that they become compatible in terms of dimensionality and also in terms of statistical distributions.We illustrate the techniques described above on EEG epochs recorded during brain-computer interface (BCI) experiments. We show examples where the reduction of the multivariate time series does not affect the performance of statistical classifiers used to distinguish their classes, as well as instances where our transfer learning and dimension-matching proposals provide remarkable results on classification in cross-session and cross-subject settings.For exploring the invariances presented above, we rely on a framework that parametrizes the statistics of the multivariate time series via Hermitian positive definite (HPD) matrices. We manipulate these matrices by considering them in a Riemannian manifold in which an adequate metric is chosen. We use concepts from Riemannian geometry to define notions such as geodesic distance, center of mass, and statistical classifiers for time series. This approach is rooted on fundamental results of differential geometry for Hermitian positive definite matrices and has links with other well established areas in applied mathematics, such as information geometry and signal processing
APA, Harvard, Vancouver, ISO, and other styles
38

Goffinet, Étienne. "Clustering multi-blocs et visualisation analytique de données séquentielles massives issues de simulation du véhicule autonome." Thesis, Paris 13, 2021. http://www.theses.fr/2021PA131090.

Full text
Abstract:
La validation des systèmes avancés d’aide à la conduite reste l’un des plus grands défis que les constructeurs automobiles doivent relever pour fournir des voitures autonomes sûres. La validation fiable de ces systèmes nécessite d’évaluer la qualité et la cohérence de leur réaction dans un large éventail de scénarios de conduite. Dans ce contexte, les systèmes de simulation à grande échelle contournent les limites de la validation physique et produisent d’importantes quantités de séries temporelles en haute dimension. Le défi est de trouver des informations utiles dans ces ensembles de données multivariées non étiquetées qui peuvent contenir des variables bruitées, parfois corrélées ou non informatives. Cette thèse propose plusieurs outils basés sur des modèles probabilistes pour le regroupement non-supervisé de séries temporelles univariées et multivariées, basés sur une approche Dictionnaire ou dans un cadre bayésien non paramétrique. L’objectif est de trouver automatiquement des groupes pertinents et naturels de comportements de conduite et, dans le cas multivarié, d’effectuer une sélection de modèles et une réduction de la dimension des séries temporelles multivariées. Les méthodes sont expérimentées sur des jeux de données simulés et appliquées à des cas d’usage industriels du Groupe Renault
Advanced driving-assistance systems validation remains one of the biggest challenges car manufacturers must tackle to provide safe driverless cars. The reliable validation of these systems requires to assess their reaction’s quality and consistency to a broad spectrum of driving scenarios. In this context, large-scale simulation systems bypass the physical «on-tracks» limitations and produce important quantities of high-dimensional time series data. The challenge is to find valuable information in these multivariate unlabelled datasets that may contain noisy, sometimes correlated or non-informative variables. This thesis propose several model-based tool for univariate and multivariate time series clustering based on a Dictionary approach or Bayesian Non Parametric framework. The objective is to automatically find relevant and natural groups of driving behaviors and, in the multivariate case, to perform a model selection and multivariate time series dimension reduction. The methods are experimented on simulated datasets and applied on industrial use cases from Groupe Renault Coclustering
APA, Harvard, Vancouver, ISO, and other styles
39

Simon, Franck. "Découverte causale sur des jeux de données classiques et temporels. Application à des modèles biologiques." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS528.

Full text
Abstract:
Cette thèse porte sur le domaine de la découverte causale, c’est-à-dire la construction de graphes causaux à partir de données observées, et en particulier, la découverte causale temporelle et la reconstruction de larges réseaux de régulation de gènes. Après un bref historique, ce mémoire introduit les principaux concepts, hypothèses et théorèmes aux fondements des graphes causaux ainsi que les deux grandes approches : à base de scores et à base de contraintes. La méthode MIIC (Multivariate Information-based Inductive Causation), développée au sein de notre laboratoire est ensuite décrite avec ses dernières améliorations : Interpretable MIIC. Les problématiques et solutions mises en œuvre pour construire une version temporelle (tMIIC) sont exposées ainsi que les benchmarks traduisant les avantages de tMIIC sur d’autres méthodes de l’état de l’art. L’application à des séquences d’images prises au microscope d’un environnement tumoral reconstitué sur des micro-puces permet d’illustrer les capacités de tMIIC à retrouver, uniquement à partir des données, des relations connues et nouvelles. Enfin, cette thèse introduit l’utilisation d’un a priori de conséquence pour appliquer la découverte causale à la reconstruction de réseaux de régulation de gènes. En posant l’hypothèse que tous les gènes, hormis les facteurs de transcription, sont des conséquences, il devient possible de reconstruire des graphes avec des milliers de gènes. La capacité à identifier des facteurs de transcription clés de novo est illustrée par une application à des données de séquençage d’ARN en cellules uniques avec identification de deux facteurs de transcription susceptibles d’être impliqués dans le processus biologique d’intérêt
This thesis focuses on the field of causal discovery : the construction of causal graphs from observational data, and in particular, temporal causal discovery and the reconstruction of large gene regulatory networks. After a brief history, this thesis introduces the main concepts, hypotheses and theorems underlying causal graphs as well as the two main approaches: score-based and constraint-based methods. The MIIC (Multivariate Information-based Inductive Causation) method, developed in our laboratory, is then described with its latest improvements: Interpretable MIIC. The issues and solutions implemented to construct a temporal version (tMIIC) are presented as well as benchmarks reflecting the advantages of tMIIC compared to other state-of-the-art methods. The application to sequences of images taken with a microscope of a tumor environment reconstituted on microchips illustrates the capabilities of tMIIC to recover, solely from data, known and new relationships. Finally, this thesis introduces the use of a consequence a priori to apply causal discovery to the reconstruction of gene regulatory networks. By assuming that all genes, except transcription factors, are only consequence genes, it becomes possible to reconstruct graphs with thousands of genes. The ability to identify key transcription factors de novo is illustrated by an application to single cell RNA sequencing data with the discovery of two transcription factors likely to be involved in the biological process of interest
APA, Harvard, Vancouver, ISO, and other styles
40

Hmamouche, Youssef. "Prédiction des séries temporelles larges." Electronic Thesis or Diss., Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0480.

Full text
Abstract:
De nos jours, les systèmes modernes sont censés stocker et traiter des séries temporelles massives. Comme le nombre de variables observées augmente très rapidement, leur prédiction devient de plus en plus compliquée, et l’utilisation de toutes les variables pose des problèmes pour les modèles classiques.Les modèles de prédiction sans facteurs externes sont parmi les premiers modèles de prédiction. En vue d’améliorer la précision des prédictions, l’utilisation de multiples variables est devenue commune. Ainsi, les modèles qui tiennent en compte des facteurs externes, ou bien les modèles multivariés, apparaissent, et deviennent de plus en plus utilisés car ils prennent en compte plus d’informations.Avec l’augmentation des données liées entre eux, l’application des modèles multivariés devient aussi discutable. Le challenge dans cette situation est de trouver les facteurs les plus pertinents parmi l’ensemble des données disponibles par rapport à une variable cible.Dans cette thèse, nous étudions ce problème en présentant une analyse détaillée des approches proposées dans la littérature. Nous abordons le problème de réduction et de prédiction des données massives. Nous discutons également ces approches dans le contexte du Big Data.Ensuite, nous présentons une méthodologie complète pour la prédiction des séries temporelles larges. Nous étendons également cette méthodologie aux données très larges via le calcul distribué et le parallélisme avec une implémentation du processus de prédiction proposé dans l’environnement Hadoop/Spark
Nowadays, storage and data processing systems are supposed to store and process large time series. As the number of variables observed increases very rapidly, their prediction becomes more and more complicated, and the use of all the variables poses problems for classical prediction models.Univariate prediction models are among the first models of prediction. To improve these models, the use of multiple variables has become common. Thus, multivariate models and become more and more used because they consider more information.With the increase of data related to each other, the application of multivariate models is also questionable. Because the use of all existing information does not necessarily lead to the best predictions. Therefore, the challenge in this situation is to find the most relevant factors among all available data relative to a target variable.In this thesis, we study this problem by presenting a detailed analysis of the proposed approaches in the literature. We address the problem of prediction and size reduction of massive data. We also discuss these approaches in the context of Big Data.The proposed approaches show promising and very competitive results compared to well-known algorithms, and lead to an improvement in the accuracy of the predictions on the data used.Then, we present our contributions, and propose a complete methodology for the prediction of wide time series. We also extend this methodology to big data via distributed computing and parallelism with an implementation of the prediction process proposed in the Hadoop / Spark environment
APA, Harvard, Vancouver, ISO, and other styles
41

Nakkar, Osman. "Modélisation espace d'états de la dynamique des séries temporelles : traitement automatique des données du marché du cuivre." Montpellier 1, 1994. http://www.theses.fr/1994MON10027.

Full text
Abstract:
Le modele espace d'etats et le filtre de kalman, utilises a l'origine en automatique applique, ont ete employes recemment en econometrie pour modeliser les series temporelles et pour estimer les modeles lineaires a coefficients variables. Apres avoir presente le model espace d'etats et le filtre de kalman qui lui est associe, nous abordons les problemes lies a l'identification et a l'estimation de ce modele. Nous proposons dans ce but de combiner les deux methodes de l'algorithme e. M. Et de la factorisation de la matrice de hankel. Pour modeliser les series temporelles non stationnaires, nous proposons l'utilisation d'un modele var a coefficients var iables. Les estimateurs de ces derniers sont obtenus a l'aide du filtre de kalman. Nous utilisons egalement un modele espace d'etats estime en deux etapes et qui est base sur l'idee classique de la decomposition d'une serie non stationnai re en composante tendancielle et en composante cyclique ou accidentelle non observables. L'application empirique au marche du cuivre met en evidence l'interet pratique du modele espace d'etats pour la previsio n et sa capacite a deceler les interactions dynamiques entre les differentes variables intervenant dans le modele grace a sa fonction de transfert
The state space model and the kalman filter which are originally used in applied automatic, were used recently in econometrics to model the time series and to estimate the linear models with variables coefficients. Firstly, we present the state space model and the kalman filtre; then we discuss about the problems associated with the identification and estimation of that model. We propose to this end the combination of the two methods of e. M. Algorithm and hankel matrix factorization. To model the non stationary time series, we propose the utilization of a var model with variable coefficients. These later are estimated by the kalman filter. We also use a state space model estimated in two steps. This model is based on the calssical idea of decomposition of a non stationary serie into tendentiously component and accidental or cyclic component. The empiric application in the copper markt show up the practical advantage of state space model for the forecast and its ability to detect the dynamic interactions between the various variables witch intervene in the model with the help of its transfer function
APA, Harvard, Vancouver, ISO, and other styles
42

Melzi, Fateh. "Fouille de données pour l'extraction de profils d'usage et la prévision dans le domaine de l'énergie." Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1123/document.

Full text
Abstract:
De nos jours, les pays sont amenés à prendre des mesures visant à une meilleure rationalisation des ressources en électricité dans une optique de développement durable. Des solutions de comptage communicantes (Smart Meters), sont mises en place et autorisent désormais une lecture fine des consommations. Les données spatio-temporelles massives collectées peuvent ainsi aider à mieux connaitre les habitudes de consommation et pouvoir les prévoir de façon précise. Le but est d'être en mesure d'assurer un usage « intelligent » des ressources pour une meilleure consommation : en réduisant par exemple les pointes de consommations ou en ayant recours à des sources d'énergies renouvelables. Les travaux de thèse se situent dans ce contexte et ont pour ambition de développer des outils de fouille de données en vue de mieux comprendre les habitudes de consommation électrique et de prévoir la production d'énergie solaire, permettant ensuite une gestion intelligente de l'énergie.Le premier volet de la thèse s'intéresse à la classification des comportements types de consommation électrique à l'échelle d'un bâtiment puis d'un territoire. Dans le premier cas, une identification des profils types de consommation électrique journalière a été menée en se basant sur l'algorithme des K-moyennes fonctionnel et sur un modèle de mélange gaussien. A l'échelle d'un territoire et en se plaçant dans un contexte non supervisé, le but est d'identifier des profils de consommation électrique types des usagers résidentiels et de relier ces profils à des variables contextuelles et des métadonnées collectées sur les usagers. Une extension du modèle de mélange gaussien classique a été proposée. Celle-ci permet la prise en compte de variables exogènes telles que le type de jour (samedi, dimanche et jour travaillé,…) dans la classification, conduisant ainsi à un modèle parcimonieux. Le modèle proposé a été comparé à des modèles classiques et appliqué sur une base de données irlandaise incluant à la fois des données de consommations électriques et des enquêtes menées auprès des usagers. Une analyse des résultats sur une période mensuelle a permis d'extraire un ensemble réduit de groupes d'usagers homogènes au sens de leurs habitudes de consommation électrique. Nous nous sommes également attachés à quantifier la régularité des usagers en termes de consommation ainsi que l'évolution temporelle de leurs habitudes de consommation au cours de l'année. Ces deux aspects sont en effet nécessaires à l'évaluation du potentiel de changement de comportement de consommation que requiert une politique d'effacement (décalage des pics de consommations par exemple) mise en place par les fournisseurs d'électricité.Le deuxième volet de la thèse porte sur la prévision de l'irradiance solaire sur deux horizons temporels : à court et moyen termes. Pour ce faire, plusieurs méthodes ont été utilisées parmi lesquelles des méthodes statistiques classiques et des méthodes d'apprentissage automatique. En vue de tirer profit des différents modèles, une approche hybride combinant les différents modèles a été proposée. Une évaluation exhaustive des différents approches a été menée sur une large base de données incluant des paramètres météorologiques mesurés et des prévisions issues des modèles NWP (Numerical Weather Predictions). La grande diversité des jeux de données relatifs à quatre localisations aux climats bien distincts (Carpentras, Brasilia, Pampelune et Ile de la Réunion) a permis de démontrer la pertinence du modèle hybride proposé et ce, pour l'ensemble des localisations
Nowadays, countries are called upon to take measures aimed at a better rationalization of electricity resources with a view to sustainable development. Smart Metering solutions have been implemented and now allow a fine reading of consumption. The massive spatio-temporal data collected can thus help to better understand consumption behaviors, be able to forecast them and manage them precisely. The aim is to be able to ensure "intelligent" use of resources to consume less and consume better, for example by reducing consumption peaks or by using renewable energy sources. The thesis work takes place in this context and aims to develop data mining tools in order to better understand electricity consumption behaviors and to predict solar energy production, then enabling intelligent energy management.The first part of the thesis focuses on the classification of typical electrical consumption behaviors at the scale of a building and then a territory. In the first case, an identification of typical daily power consumption profiles was conducted based on the functional K-means algorithm and a Gaussian mixture model. On a territorial scale and in an unsupervised context, the aim is to identify typical electricity consumption profiles of residential users and to link these profiles to contextual variables and metadata collected on users. An extension of the classical Gaussian mixture model has been proposed. This allows exogenous variables such as the type of day (Saturday, Sunday and working day,...) to be taken into account in the classification, thus leading to a parsimonious model. The proposed model was compared with classical models and applied to an Irish database including both electricity consumption data and user surveys. An analysis of the results over a monthly period made it possible to extract a reduced set of homogeneous user groups in terms of their electricity consumption behaviors. We have also endeavoured to quantify the regularity of users in terms of consumption as well as the temporal evolution of their consumption behaviors during the year. These two aspects are indeed necessary to evaluate the potential for changing consumption behavior that requires a demand response policy (shift in peak consumption, for example) set up by electricity suppliers.The second part of the thesis concerns the forecast of solar irradiance over two time horizons: short and medium term. To do this, several approaches have been developed, including autoregressive statistical approaches for modelling time series and machine learning approaches based on neural networks, random forests and support vector machines. In order to take advantage of the different models, a hybrid model combining the different models was proposed. An exhaustive evaluation of the different approaches was conducted on a large database including four locations (Carpentras, Brasilia, Pamplona and Reunion Island), each characterized by a specific climate as well as weather parameters: measured and predicted using NWP models (Numerical Weather Predictions). The results obtained showed that the hybrid model improves the results of photovoltaic production forecasts for all locations
APA, Harvard, Vancouver, ISO, and other styles
43

Julea, Andreea Maria. "Extraction de motifs spatio-temporels dans des séries d'images de télédétection : application à des données optiques et radar." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00652810.

Full text
Abstract:
Les Séries Temporelles d'Images Satellitaires (STIS), visant la même scène en évolution, sont très intéressantes parce qu'elles acquièrent conjointement des informations temporelles et spatiales. L'extraction de ces informations pour aider les experts dans l'interprétation des données satellitaires devient une nécessité impérieuse. Dans ce mémoire, nous exposons comment on peut adapter l'extraction de motifs séquentiels fréquents à ce contexte spatio-temporel dans le but d'identifier des ensembles de pixels connexes qui partagent la même évolution temporelle. La démarche originale est basée sur la conjonction de la contrainte de support avec différentes contraintes de connexité qui peuvent filtrer ou élaguer l'espace de recherche pour obtenir efficacement des motifs séquentiels fréquents groupés (MSFG) avec signification pour l'utilisateur. La méthode d'extraction proposée est non supervisée et basée sur le niveau pixel. Pour vérifier la généricité du concept de MSFG et la capacité de la méthode proposée d'offrir des résultats intéressants à partir des SITS, sont réalisées des expérimentations sur des données réelles optiques et radar.
APA, Harvard, Vancouver, ISO, and other styles
44

Malgras, Jacques. "Applications, à des données de la biologie des populations et de l'écologie, de méthodes d'analyse des séries temporelles." Lyon 1, 1996. http://www.theses.fr/1996LYO10240.

Full text
Abstract:
En biologie des populations et en ecologie, les donnees sont souvent des sequences d'observations ordonnees dans le temps, donc correlees entre elles. L'analyse de ces series requiert des methodes specifiques relevant de la theorie des processus stochastiques dans les domaines des temps et des frequences. Ces methodes sont introduites, illustrees sur des jeux de donnees reelles, puis leur interet en biologie des populations est mis en evidence.
APA, Harvard, Vancouver, ISO, and other styles
45

Bündgen, Blanche. "Évolution des comportements techniques au Magdalénien supérieur : les données de l'industrie lithique de La Madeleine (Dordogne), séries récentes." Bordeaux 1, 2002. http://www.theses.fr/2002BOR12515.

Full text
Abstract:
Ce travail est consacré à l'étude de l'industrie lithique provenant des fouilles récentes effectuées dans l'abri sous roche de La Madeleine (Dordogne), site éponyme du Magdalénien. Les caractères de l'industrie osseuse récoltée au début du XXè siècle dans ce gisement à la séquence stratigraphique particulièrement développée servent de base depuis 1912 au découpage chrono-culturel du Magdalénien supérieur en trois stades. Nos résultats, obtenus à partir de l'étude des artefacts lithiques, tendent à remettre en question la pertinence de cette structuration. Les comportements techniques des occupants du site ont été caractérisés grâce à une étude typologique couplée à une description des processus de débitage et de la gestion des matières premières. Cette analyse démontre l'existence d'une très forte homogénéité de ces comportements dans les dix niveaux archéologiques considérés, traditionnellement répartis sur les trois stades en question (Magdalénien IV, V et VI). Par ailleurs, une synthèse de l'ensemble des travaux disponibles sur le matériel archéologique de La Madeleine a été réalisée, dans la perspective de mieux cerner la , nature des activités qui se sont déroulées sur le gisement. Ces données fournissent également des indications sur d'éventuelles évolutions techniques et/ou culturelles au Magdalénien supérieur. Enfin, une comparaison avec quelques sites périgourdins contemporains permet, de replacer ce site dans-le contexte régional.
APA, Harvard, Vancouver, ISO, and other styles
46

Ben, Hamadou Radhouane. "Contribution à l'analyse spatio-temporelle de séries écologiques marines." Paris 6, 2003. http://www.theses.fr/2003PA066021.

Full text
APA, Harvard, Vancouver, ISO, and other styles
47

Petitjean, François. "Dynamic time warping : apports théoriques pour l'analyse de données temporelles : application à la classification de séries temporelles d'images satellites." Thesis, Strasbourg, 2012. http://www.theses.fr/2012STRAD023.

Full text
Abstract:
Les séries temporelles d’images satellites (STIS) sont des données cruciales pour l’observation de la terre. Les séries temporelles actuelles sont soit des séries à haute résolution temporelle (Spot-Végétation, MODIS), soit des séries à haute résolution spatiale (Landsat). Dans les années à venir, les séries temporelles d’images satellites à hautes résolutions spatiale et temporelle vont être produites par le programme Sentinel de l’ESA. Afin de traiter efficacement ces immenses quantités de données qui vont être produites (par exemple, Sentinel-2 couvrira la surface de la terre tous les cinq jours, avec des résolutions spatiales allant de 10m à 60m et disposera de 13 bandes spectrales), de nouvelles méthodes ont besoin d’être développées. Cette thèse se focalise sur la comparaison des profils d’évolution radiométrique, et plus précisément la mesure de similarité « Dynamic Time Warping », qui constitue un outil permettant d’exploiter la structuration temporelle des séries d’images satellites
Satellite Image Time Series are becoming increasingly available and will continue to do so in the coming years thanks to the launch of space missions, which aim at providing a coverage of the Earth every few days with high spatial resolution (ESA’s Sentinel program). In the case of optical imagery, it will be possible to produce land use and cover change maps with detailed nomenclatures. However, due to meteorological phenomena, such as clouds, these time series will become irregular in terms of temporal sampling. In order to consistently handle the huge amount of information that will be produced (for instance, Sentinel-2 will cover the entire Earth’s surface every five days, with 10m to 60m spatial resolution and 13 spectral bands), new methods have to be developed. This Ph.D. thesis focuses on the “Dynamic Time Warping” similarity measure, which is able to take the most of the temporal structure of the data, in order to provide an efficient and relevant analysis of the remotely observed phenomena
APA, Harvard, Vancouver, ISO, and other styles
48

Gong, Xing. "Analyse de séries temporelles d’images à moyenne résolution spatiale : reconstruction de profils de LAI, démélangeage : application pour le suivi de la végétation sur des images MODIS." Thesis, Rennes 2, 2015. http://www.theses.fr/2015REN20021/document.

Full text
Abstract:
Cette thèse s’intéresse à l’analyse de séries temporelles d’images satellites à moyenne résolution spatiale. L’intérêt principal de telles données est leur haute répétitivité qui autorise des analyses de l’usage des sols. Cependant, deux problèmes principaux subsistent avec de telles données. En premier lieu, en raison de la couverture nuageuse, des mauvaises conditions d’acquisition, ..., ces données sont souvent très bruitées. Deuxièmement, les pixels associés à la moyenne résolution spatiale sont souvent “mixtes” dans la mesure où leur réponse spectrale est une combinaison de la réponse de plusieurs éléments “purs”. Ces deux problèmes sont abordés dans cette thèse. Premièrement, nous proposons une technique d’assimilation de données capable de recouvrer des séries temporelles cohérentes de LAI (Leaf Area Index) à partir de séquences d’images MODIS bruitées. Pour cela, le modèle de croissance de plantes GreenLab estutilisé. En second lieu, nous proposons une technique originale de démélangeage, qui s’appuie notamment sur des noyaux “élastiques” capables de gérer les spécificités des séries temporelles (séries de taille différentes, décalées dans le temps, ...)Les résultats expérimentaux, sur des données synthétiques et réelles, montrent de bonnes performances des méthodologies proposées
This PhD dissertation is concerned with time series analysis for medium spatial resolution (MSR) remote sensing images. The main advantage of MSR data is their high temporal rate which allows to monitor land use. However, two main problems arise with such data. First, because of cloud coverage and bad acquisition conditions, the resulting time series are often corrupted and not directly exploitable. Secondly, pixels in medium spatial resolution images are often “mixed” in the sense that the spectral response is a combination of the response of “pure” elements.These two problems are addressed in this PhD. First, we propose a data assimilation technique able to recover consistent time series of Leaf Area Index from corrupted MODIS sequences. To this end, a plant growth model, namely GreenLab, is used as a dynamical constraint. Second, we propose a new and efficient unmixing technique for time series. It is in particular based on the use of “elastic” kernels able to properly compare time series shifted in time or of various lengths.Experimental results are shown both on synthetic and real data and demonstrate the efficiency of the proposed methodologies
APA, Harvard, Vancouver, ISO, and other styles
49

Ghaddar, Alia. "Improving the quality of aggregation using data analysis in WSNs." Thesis, Lille 1, 2011. http://www.theses.fr/2011LIL10068/document.

Full text
Abstract:
L'adoption des réseaux de capteurs sans fil (WSNs) dans divers secteurs continuent à croître, comme la médecine, la domotique, le contrôle de processus industriels, la localisation des objets, etc. Cela revient à l'émergence de capteurs de plus en plus petits et de plus en plus intelligents dans notre vie quotidienne. Ces dispositifs interagissent avec l'environnement ou d'autres périphériques, pour analyser les données et produire de l'information. En plus de créer de l'information, ils permettent, une intégration transparente de la technologie virtuelle autour de nous. En effet, ces objets sont de faible puissance et fonctionnent sur batterie. Ils sont souvent utilisé dans des zones géographiques dangereuse et peu accessible, tels que les volcans actifs, les champs de bataille, ou après une catastrophe naturelle etc. Ces zones critiques rendent le remplacement ou la recharge des batteries de chaque capteur difficile voire impossible. Ainsi, leur consommation énergétique devient le principale verrou technologique empêchant leur déploiement à grande échelle. Nous sommes intéressés à partie la plus consommatrice d'énergie dans les réseaux de capteurs: la communication ou l'envoi/la réception de données. Nous proposons des méthodes pour réduire les transmissions des nœuds en réduisant le volume de données à transmettre. Notre travail s'articule autour de trois axes fondamentaux: la prédiction des données, la détection de similarité des données et la détection des comportements anormaux
The promise and application domain of Wireless Sensor Networks (WSNs) continue to grow such as health care, home automation, industry process control, object tracking, etc. This is due to the emergence of embedded, small and intelligent sensor devices in our everyday life. These devices are getting smarter with their capability to interact with the environment or other devices, to analyze data and to make decisions. They have made it possible not only gather data from the environment, but also to bridge the physical and virtual worlds, assist people in their activities, while achieving transparent integration of the wireless technology around us. Along with this promising glory for WSNs, there are however, several challenges facing their deployments and functionality, especially for battery-operated sensor networks. For these networks, the power consumption is the most important challenge. In fact, most of WSNs are composed of low-power, battery-operated sensor nodes that are expected to replace human activities in many critical places, such as disaster relief terrains, active volcanoes, battlefields, difficult terrain border lands, etc. This makes their battery replacement or recharging a non-trivial task. We are concerned with the most energy consuming part of these networks, that is the communication. We propose methods to reduce the cost of transmission in energy-constrained sensor nodes. For this purpose, we observe the way data is collected and processed to save energy during transmission. Our work is build on three basic axis: data estimation, data similarity detection and abnormal behaviors detection
APA, Harvard, Vancouver, ISO, and other styles
50

Rhéaume, François. "Une méthode de machine à état liquide pour la classification de séries temporelles." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/28815/28815.pdf.

Full text
Abstract:
L'intérêt envers la neuroscience informatique pour les applications d'intelligence arti- cielle est motivé par plusieurs raisons. Parmi elles se retrouve la rapidité avec laquelle le domaine evolue, promettant de nouvelles capacités pour l'ingénieur. Dans cette thèse, une méthode exploitant les récents avancements en neuroscience informatique est présentée: la machine à état liquide (\liquid state machine"). Une machine à état liquide est un modèle de calcul de données inspiré de la biologie qui permet l'apprentissage sur des ux de données. Le modèle représente un outil prometteur de reconnaissance de formes temporelles. Déjà, il a démontré de bons résultats dans plusieurs applications. En particulier, la reconnaissance de formes temporelles est un problème d'intérêt dans les applications militaires de surveillance telle que la reconnaissance automatique de cibles. Jusqu'à maintenant, la plupart des machines à état liquide crées pour des problèmes de reconnaissance de formes sont demeurées semblables au modèle original. D'un point de vue ingénierie, une question se dégage: comment les machines à état liquide peuvent-elles être adaptées pour améliorer leur aptitude à solutionner des problèmes de reconnaissance de formes temporelles ? Des solutions sont proposées. La première solution suggèrée se concentre sur l'échantillonnage de l'état du liquide. À ce sujet, une méthode qui exploite les composantes fréquentielles du potentiel sur les neurones est définie. La combinaison de différents types de vecteurs d'état du liquide est aussi discutée. Deuxièmement, une méthode pour entrâner le liquide est développée. La méthode utilise la plasticité synaptique à modulation temporelle relative pour modeler le liquide. Une nouvelle approche conditionnée par classe de données est proposée, où différents réseaux de neurones sont entraînés exclusivement sur des classes particuli ères de données. Concernant cette nouvelle approche ainsi que celle concernant l'échantillonnage du liquide, des tests comparatifs ont été effectués avec l'aide de jeux de données simulées et réelles. Les tests permettent de constater que les méthodes présentées surpassent les méthodes conventionnelles de machine à état liquide en termes de taux de reconnaissance. Les résultats sont encore plus encourageants par le fait qu'ils ont été obtenus sans l'optimisation de plusieurs paramètres internes pour les differents jeux de données testés. Finalement, des métriques de l'état du liquide ont été investiguées pour la prédiction de la performance d'une machine à état liquide.
There are a number of reasons that motivate the interest in computational neuroscience for engineering applications of artificial intelligence. Among them is the speed at which the domain is growing and evolving, promising further capabilities for artificial intelligent systems. In this thesis, a method that exploits the recent advances in computational neuroscience is presented: the liquid state machine. A liquid state machine is a biologically inspired computational model that aims at learning on input stimuli. The model constitutes a promising temporal pattern recognition tool and has shown to perform very well in many applications. In particular, temporal pattern recognition is a problem of interest in military surveillance applications such as automatic target recognition. Until now, most of the liquid state machine implementations for spatiotemporal pattern recognition have remained fairly similar to the original model. From an engineering perspective, a challenge is to adapt liquid state machines to increase their ability for solving practical temporal pattern recognition problems. Solutions are proposed. The first one concentrates on the sampling of the liquid state. In this subject, a method that exploits frequency features of neurons is defined. The combination of different liquid state vectors is also discussed. Secondly, a method for training the liquid is developed. The method implements synaptic spike-timing dependent plasticity to shape the liquid. A new class-conditional approach is proposed, where different networks of neurons are trained exclusively on particular classes of input data. For the suggested liquid sampling methods and the liquid training method, comparative tests were conducted with both simulated and real data sets from different application areas. The tests reveal that the methods outperform the conventional liquid state machine approach. The methods are even more promising in that the results are obtained without optimization of many internal parameters for the different data sets. Finally, measures of the liquid state are investigated for predicting the performance of the liquid state machine.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography