To see the other types of publications on this topic, follow the link: Analyse des données compositionnelles.

Dissertations / Theses on the topic 'Analyse des données compositionnelles'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Analyse des données compositionnelles.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Illous, Hugo. "Abstractions relationnelles de la mémoire pour une analyse compositionnelle de structures de données." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEE015.

Full text
Abstract:
Les analyses statiques ont pour but d’inférer des propriétés sémantiques de programmes. Nous distinguons deux importantes classes d’analyses statiques : les analyses d’états et les analyses relationnelles. Alors que les analyses d’états calculent une sur-approximation de l’ensemble des états atteignables d’un programme, les analyses relationnelles calculent des propriétés fonctionnelles entre les états d’entrée et les états de sortie d’un programme. Les analyses relationnelles offrent plusieurs avantages, comme leur capacité à inférer des propriétés sémantiques plus expressives par rapport aux analyses d’états. De plus, elles offrent également la possibilité de rendre l’analyse compositionnelle, en utilisant les relations entrée-sortie comme des résumés de procédures, ce qui est un avantage pour le passage à l’échelle. Dans le cas des programmes numériques, plusieurs analyses ont été proposées qui utilisent des domaines abstraits numériques relationnels, pour décrire des relations. D’un autre côté, modéliser des abstractions de relations entre les états mémoires entrée-sortie tout en prenant en compte les structures de données est difficile. Dans cette Thèse, nous proposons un ensemble de nouveaux connecteurs logiques, reposant sur la logique de séparation, pour décrire de telles relations. Ces connecteurs peuvent exprimer qu’une certaine partie de la mémoire est inchangée, fraîchement allouée, ou désallouée, ou que seulement une seule partie de la mémoire est modifiée (et de quelle manière). En utilisant ces connecteurs, nous construisons un domaine abstrait relationnel et nous concevons une analyse statique compositionnelle par interprétation abstraite qui sur-approxime des relations entre des états mémoires contenant des structures de données inductives. Nous avons implémenté ces contributions sous la forme d’un plug-in de l’analyseur FRAMA-C. Nous en avons évalué l’impact sur l’analyse de petits programmes écrits en C manipulant des listes chaînées et des arbres binaires, mais également sur l’analyse d’un programme plus conséquent qui consiste en une partie du code source d’Emacs. Nos résultats expérimentaux montrent que notre approche permet d’inférer des propriétés sémantiques plus expressives d’un point de vue logique que des analyses d’états. Elle se révèle aussi beaucoup plus rapide sur des programmes avec un nombre conséquent d’appels de fonctions sans pour autant perdre en précision
Static analyses aim at inferring semantic properties of programs. We distinguish two important classes of static analyses: state analyses and relational analyses. While state analyses aim at computing an over-approximation of reachable states of programs, relational analyses aim at computing functional properties over the input-output states of programs. Relational analyses offer several advantages, such as their ability to infer semantics properties more expressive compared to state analyses. Moreover, they offer the ability to make the analysis compositional, using input-output relations as summaries for procedures, which is an advantage for scalability. In the case of numeric programs, several analyses have been proposed that utilize relational numerical abstract domains to describe relations. On the other hand, designing abstractions for relations over input-output memory states and taking shapes into account is challenging. In this Thesis, we propose a set of novel logical connectives to describe such relations, which rely on separation logic. This logic can express that certain memory areas are unchanged, freshly allocated, or freed, or that only part of the memory is modified (and how). Using these connectives, we build an abstract domain and design a compositional static analysis by abstract interpretation that over-approximates relations over memory states containing inductive structures. We implement this approach as a plug-in of the FRAMA-C analyzer. We evaluate it on small programs written in C that manipulate singly linked lists and binary trees, but also on a bigger program that consists of a part of Emacs. The experimental results show that our approach allows us to infer more expressive semantic properties than states analyses, from a logical point of view. It is also much faster on programs with an important number of function calls without losing precision
APA, Harvard, Vancouver, ISO, and other styles
2

Soret, Perrine. "Régression pénalisée de type Lasso pour l’analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0254.

Full text
Abstract:
Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s'est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension.Cette thèse est consacrée à l'application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières.Premièrement, chez des patients atteints du virus de l'immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement.La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d'orienter le choix des traitements.En dessous d'un seuil, la charge virale est indétectable, on parle de données censurées à gauche.Nous proposons deux nouvelles approches Lasso basées sur l'algorithme Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelle. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l'espérance conditionnelle ont été proposées en analyse de survie. Enfin, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne.Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d'abondances relatives (proportion de chaque espèce par individu, dites données compositionnelles) et elles présentent une structure phylogénétique.Nous avons dressé un état de l'art des méthodes d'analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l'applicabilité et l'efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données.Puis nous appliquons ces recherches à l'analyse de l'association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong
In clinical studies and thanks to technological progress, the amount of information collected in the same patient continues to grow leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method proved to be appropriate to circumvent over-adjustment problems in high-dimensional settings.This thesis is devoted to the application and development of Lasso-penalized regression for clinical data presenting particular structures.First, in patients with the human immunodeficiency virus, mutations in the virus's genetic structure may be related to the development of drug resistance. The prediction of the viral load from (potentially large) mutations allows guiding treatment choice.Below a threshold, the viral load is undetectable, data are left-censored. We propose two new Lasso approaches based on the Buckley-James algorithm, which imputes censored values ​​by a conditional expectation. By reversing the response, we obtain a right-censored problem, for which non-parametric estimates of the conditional expectation have been proposed in survival analysis. Finally, we propose a parametric estimation based on a Gaussian hypothesis.Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are presented as relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure.We have established a state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data.Then we apply this research to the analysis of the association between bacteria / fungi and the decline of pulmonary function in patients with cystic fibrosis from the MucoFong project
APA, Harvard, Vancouver, ISO, and other styles
3

Bonacina, Francesco. "Advanced Statistical Approaches for the Global Analysis of Influenza Virus Circulation." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS213.

Full text
Abstract:
De multiples types et sous-types de virus de la grippe co-circulent dans le monde, avec une dynamique caractérisée par des épidémies annuelles et des changements exceptionnels dus à des événements épidémiologiques majeurs. Cette thèse développe des outils statistiques pour étudier certains aspects clés de cette dynamique ponctuée, pro-posant des approches non conventionnelles en épidémiologie. Les analyses sont basées sur les données de FluNet, un jeu de données fourni par l'Organisation mondiale de la santé qui comprend des comptages hebdomadaires d'échantillons de grippe provenant de plus de 150 pays, catégorisés par type et sous-type. Les deux premiers projets de recherche inclus dans la thèse sont axés sur l'application, tandis que la troisième étude est orientée vers la théorie, bien qu'elle comprenne une application aux données de surveillance de la grippe humaine. La première étude examine le déclin de la grippe pendant la pandémie COVID-19, en évaluant l'ampleur du déclin et en utilisant des techniques basées sur des arbres de régression pour identifier les facteurs associés à ce déclin au niveau des pays. La deuxième étude examine la dynamique couplée des (sous-)types de grippe, en se concentrant sur leur abondance relative dans chaque pays et chaque année, par le biais de l'analyse des données de composition. Elle dé-montre l'évolution du mélange des (sous-)types au cours de la pandémie COVID-19 et développe des algorithmes de prévision probabiliste pour prédire la composition des(sous-)types un an à l'avance. La troisième étude formule un modèle de copule conditionnelle pour décrire les dépendances de données multivariées nettes de certaines covariables. La consistance asymptotique du modèle est ensuite étudiée. Enfin, le modèle est utilisé pour classer les pays et les années caractérisés par des dépendances similaires dans les proportions relatives des (sous-)types de grippe
The mitigation of human Influenza remains a challenge due to the complexities characterizing its spread. Multiple types and subtypes of influenza viruses co-circulate glob-ally, with a dynamic characterized by annual epidemics and occasional shifts due tomajor epidemiological events. This thesis develops statistical tools to study some keyaspects of influenza spatiotemporal ecological dynamics, proposing unconventionalapproaches in epidemiology. The analyses are based on data from FluNet, a com-prehensive dataset provided by the World Health Organization that includes weeklycounts of influenza samples from over 150 countries, categorized by type and subtype.The first two research projects included in the thesis have an applied focus, while thethird study is theoretically oriented, although it includes an application to influenzasurveillance data. The first study examines the decline of influenza during the COVID-19 pandemic, assessing the magnitude of the decline by country globally and usingregression tree-based techniques to identify country-level factors associated with thedecline. The second study examines the coupled dynamics of influenza (sub)types,focusing on their relative abundance across countries and years through the lens ofCompositional Data Analysis. It provides evidence of the changes in (sub)type mixingduring the COVID-19 pandemic and develops probabilistic forecasting algorithms topredict (sub)type composition one year in advance. The third study formulates a con-ditional copula model to describe the dependencies of multivariate data conditionallyupon certain covariates. The asymptotic consistency of the model is then investigated.Finally, the model is used to classify countries and years characterized by similar de-pendencies in the relative abundances of influenza (sub)types
APA, Harvard, Vancouver, ISO, and other styles
4

Béranger, Sébastien. "Les espaces paramétriques dans la musique instrumentale depuis 1950 : analyse croisée de trois approches compositionnelles." Nice, 2003. http://www.theses.fr/2003NICE2026.

Full text
Abstract:
Les techniques compositionnelles actuelles tendent à considérer le discours musical selon une globalité. La combinatoire des différentes dimensions de l'écriture propose des espaces distincts ; des espaces paramétriques. Ces espaces paramétriques doivent être considérés sous une optique métaphorique : ils représentent les caractéristiques sonores du discours musical, les résultantes des différentes associations de paramètres. En prenant appuis sur les analyses d'Ethers de Tristan Murail, de Nachtmusik I d'Emmanuel Nunes et de Spiri de Franco Donatoni je tenterai de caractériser les différents types d'espaces paramétriques selon leurs héritages esthétiques. Enfin, j'analyserai une de mes pièces, Hier ne finira que demain et demain a commencé il y a dix mille ans, qui se développe dans son intégralité sur une dialectique entre des espaces paramétriques différents. Cette dernière analyse me permettra, je l'espère, de mettre en avant les différentes caractéristiques soulevées dans cette thèse et de montrer la pertinence d'une utilisation de ces espaces paramétriques au sein d'un discours musical.
APA, Harvard, Vancouver, ISO, and other styles
5

Marine, Cadoret. "Analyse factorielle de données de catégorisation. : Application aux données sensorielles." Rennes, Agrocampus Ouest, 2010. http://www.theses.fr/2010NSARG006.

Full text
Abstract:
En analyse sensorielle, les approches holistiques, dans lesquelles les objets sont considérés comme un tout, sont de plus en plus utilisées pour recueillir des données. Leur intérêt vient d'une part du fait qu'elles permettent d'acquérir d'autres types d'informations que celles obtenues par les méthodes de profil classiques et d'autre part du fait qu'elles ne demandent aucune compétence particulière, ce qui les rend réalisable par tous types de sujets. La catégorisation (ou tri libre) dans laquelle la tâche demandée aux sujets est de fournir une partition des objets, fait partie de ces approches. Cette thèse se concentre dans une première partie sur les données de catégorisation. Après avoir vu que cette méthode de recueil de données est pertinente, nous nous intéressons au traitement statistique de ces données à travers la recherche de représentations euclidiennes. La méthodologie proposée qui consiste à utiliser des méthodes factorielles telles que l'Analyse des Correspondances Multiple (ACM) ou l'Analyse Factorielle Multiple (AFM) est également enrichie d'éléments de validité. Cette méthodologie est ensuite illustrée par l'analyse de deux jeux de données obtenus à partir de bières d'une part et de parfums d'autre part. La deuxième partie est consacrée à l'étude de deux modes de recueil de données liés à la catégorisation : le Napping® catégorisé et le tri hiérarchique. Pour ces deux recueils, nous nous intéressons également au traitement des données en adoptant une démarche similaire à celle utilisée pour les données de catégorisation. Enfin, la dernière partie est consacrée à l'implémentation dans le logiciel R de différentes fonctions permettant de traiter les trois types de données que sont les données issues de catégorisation, Napping® catégorisé et tri hiérarchique
In sensory analysis, holistic approaches in which objects are considered as a whole are increasingly used to collect data. Their interest comes on a one hand from their ability to acquire other types of information as the one obtained by traditional profiling methods and on the other hand from the fact they require no special skills, which makes them feasible by all subjects. Categorization (or free sorting), in which subjects are asked to provide a partition of objects, belongs to these approaches. The first part of this work focuses on categorization data. After seeing that this method of data collection is relevant, we focus on the statistical analysis of these data through the research of Euclidean representations. The proposed methodology which consists in using factorial methods such as Multiple Correspondence Analysis (MCA) or Multiple Factor Analysis (MFA) is also enriched with elements of validity. This methodology is then illustrated by the analysis of two data sets obtained from beers on a one hand and perfumes on the other hand. The second part is devoted to the study of two data collection methods related to categorization: sorted Napping® and hierarchical sorting. For both data collections, we are also interested in statistical analysis by adopting an approach similar to the one used for categorization data. The last part is devoted to the implementation in the R software of functions to analyze the three kinds of data that are categorization data, hierarchical sorting data and sorted Napping® data
APA, Harvard, Vancouver, ISO, and other styles
6

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web." Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Full text
Abstract:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.
APA, Harvard, Vancouver, ISO, and other styles
7

Gomes, da Silva Alzennyr. "Analyse des données évolutives : Application aux données d'usage du Web." Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090047.

Full text
Abstract:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme, commerce électronique et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée
Nowadays, more and more organizations are becoming reliant on the Internet. The Web has become one of the most widespread platforms for information change and retrieval. The growing number of traces left behind user transactions (e. G. : customer purchases, user sessions, etc. ) automatically increases the importance of usage data analysis. Indeed, the way in which a web site is visited can change over time. These changes can be related to some temporal factors (day of the week, seasonality, periods of special offer, etc. ). By consequence, the usage models must be continuously updated in order to reflect the current behaviour of the visitors. Such a task remains difficult when the temporal dimension is ignored or simply introduced into the data description as a numeric attribute. It is precisely on this challenge that the present thesis is focused. In order to deal with the problem of acquisition of real usage data, we propose a methodology for the automatic generation of artificial usage data over which one can control the occurrence of changes and thus, analyse the efficiency of a change detection system. Guided by tracks born of some exploratory analyzes, we propose a tilted window approach for detecting and following-up changes on evolving usage data. In order measure the level of changes, this approach applies two external evaluation indices based on the clustering extension. The proposed approach also characterizes the changes undergone by the usage groups (e. G. Appearance, disappearance, fusion and split) at each timestamp. Moreover, the refereed approach is totally independent of the clustering method used and is able to manage different kinds of data other than usage data. The effectiveness of this approach is evaluated on artificial data sets of different degrees of complexity and also on real data sets from different domains (academic, tourism, e-business and marketing)
APA, Harvard, Vancouver, ISO, and other styles
8

Peng, Tao. "Analyse de données loT en flux." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0649.

Full text
Abstract:
Depuis l'avènement de l'IoT (Internet of Things), nous assistons à une augmentation sans précédent du volume des données générées par des capteurs. Pour l'imputation des données manquantes d'un capteur f, nous proposons le modèle ISTM (Incremental Space-Time Model), qui utilise la régression linéaire multiple incrémentale adaptée aux données en flux non-stationnaires. ISTM met à jour son modèle en sélectionnant : 1) les données des capteurs voisins géographiquement du capteur f, et 2) les données les plus récentes retournées par f. Pour mesurer la confiance, nous proposons un modèle générique de prédiction DTOM (Data Trustworthiness Online Model) qui s'appuie sur des méthodes ensemblistes de régression en ligne comme AddExp et BNNRW . DTOM permet de prédire des valeurs de confiance en temps réel et comporte trois phases : 1) une phase d'initialisation du modèle, 2) une phase d'estimation du score de confiance, et 3) une phase de mise à jour heuristique du régresseur. Enfin, nous nous intéressons à la prédiction dans une STS avec des sorties multiples en présence de déséquilibre, c'est à dire lorsqu'il y a plus d'instances dans un intervalle de valeurs que dans un autre. Nous proposons MORSTS, une méthode de régression ensembliste en ligne, avec les caractéristiques suivantes : 1) les sous-modèles sont à sorties multiples, 2) l'utilisation de la stratégie sensible aux coûts c'est à dire que l'instance incorrectement prédite a un poids plus élevé, et 3) le contrôle du sur-apprentissage des sous-modèles naissants par la méthode de validation croisée k-fold. Des expérimentations avec des données réelles ont été effectuées et comparées avec des techniques connues
Since the advent of the IoT (Internet of Things), we have witnessed an unprecedented growth in the amount of data generated by sensors. To exploit this data, we first need to model it, and then we need to develop analytical algorithms to process it. For the imputation of missing data from a sensor f, we propose ISTM (Incremental Space-Time Model), an incremental multiple linear regression model adapted to non-stationary data streams. ISTM updates its model by selecting: 1) data from sensors located in the neighborhood of f, and 2) the near-past most recent data gathered from f. To evaluate data trustworthiness, we propose DTOM (Data Trustworthiness Online Model), a prediction model that relies on online regression ensemble methods such as AddExp (Additive Expert) and BNNRW (Bagging NNRW) for assigning a trust score in real time. DTOM consists: 1) an initialization phase, 2) an estimation phase, and 3) a heuristic update phase. Finally, we are interested predicting multiple outputs STS in presence of imbalanced data, i.e. when there are more instances in one value interval than in another. We propose MORSTS, an online regression ensemble method, with specific features: 1) the sub-models are multiple output, 2) adoption of a cost sensitive strategy i.e. the incorrectly predicted instance has a higher weight, and 3) management of over-fitting by means of k-fold cross-validation. Experimentation with with real data has been conducted and the results were compared with reknown techniques
APA, Harvard, Vancouver, ISO, and other styles
9

Sibony, Eric. "Analyse mustirésolution de données de classements." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Full text
Abstract:
Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications
APA, Harvard, Vancouver, ISO, and other styles
10

Vidal, Jules. "Progressivité en analyse topologique de données." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS398.

Full text
Abstract:
L’analyse topologique de donnés permet l’extraction générique et efficace de caractéristiques structurelles dans les données. Cependant, bien que ces techniques aient des complexités asymptotiques connues et raisonnables elles sont rarement interactives en pratique sur des jeux de données réels. Dans cette thèse, nous avons cherché à développer des méthodes progressives pour l’analyse topologique de données scalaires scientifiques, qui peuvent être interrompues pour fournir rapidement un résultat approché exploitable, et sont capables de l’affiner ensuite. Nous introduisons deux algorithmes progressifs pour le calcul des points critiques et du diagramme de persistance d’un champ scalaire. Ensuite, nous revisitons ce cadre progressif pour introduire un algorithme pour le calcul approché du diagramme de persistance d’un champ scalaire, avec des garanties sur l’erreur d’approximation associée. Enfin, afin d’effectuer une analyse visuelle de données d’ensemble, nous présentons un nouvel algorithme progressif pour le calcul du barycentre de Wasserstein d’un ensemble de diagrammes de persistance, une tâche notoirement coûteuse en calcul. Notre approche progressive permet d’approcher le barycentre de manière interactive. Nous étendons cette méthode à un algorithme de classification topologique de données d’ensemble, qui est progressif et capable de respecter une contrainte de temps
Topological Data Analysis (TDA) forms a collection of tools that enable the generic and efficient extraction of features in data. However, although most TDA algorithms have practicable asymptotic complexities, these methods are rarely interactive on real-life datasets, which limits their usability for interactive data analysis and visualization. In this thesis, we aimed at developing progressive methods for the TDA of scientific scalar data, that can be interrupted to swiftly provide a meaningful approximate output and that are able to refine it otherwise. First, we introduce two progressive algorithms for the computation of the critical points and the extremum-saddle persistence diagram of a scalar field. Next, we revisit this progressive framework to introduce an approximation algorithm for the persistence diagram of a scalar field, with strong guarantees on the related approximation error. Finally, in a effort to perform visual analysis of ensemble data, we present a novel progressive algorithm for the computation of the discrete Wasserstein barycenter of a set of persistence diagrams, a notoriously computationally intensive task. Our progressive approach enables the approximation of the barycenter within interactive times. We extend this method to a progressive, time-constraint, topological ensemble clustering algorithm
APA, Harvard, Vancouver, ISO, and other styles
11

Sibony, Eric. "Analyse mustirésolution de données de classements." Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0036.

Full text
Abstract:
Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications
APA, Harvard, Vancouver, ISO, and other styles
12

Périnel, Emmanuel. "Segmentation en analyse de données symboliques : le cas de données probabilistes." Paris 9, 1996. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1996PA090079.

Full text
Abstract:
Les méthodes de segmentation, ou d'arbre de décision, sont des techniques permettant d'expliquer une partition à priori d'une population d'objets décrite par des variables explicatives. Elles ont connu ces dernières années un net regain d'intérêt, aussi bien dans le domaine de la statistique que dans celui de l'apprentissage automatique en intelligence artificielle. Toutefois, ces méthodes sont souvent reconnues sensibles à une information dite imparfaite telle que, des erreurs de mesures, des imprécisions ou incertitudes, des jugements experts, ce phénomène résulte principalement du manque de flexibilité des langages de représentations employés pour décrire les objets étudiés, d'une part, et de la rigidité même du processus d'apprentissage (partitionnement récursif), d'autre part. Dans ce travail, nous proposons une méthodologie générale de construction d'arbre de décision appliquée à des données de nature probabiliste. Celles-ci sont représentées par des assertions probabilistes dans le contexte de l'analyse des données symboliques. Son langage de description, en offrant une représentation plus riche et complexe des objets étudiés, nous permet d'introduire plus de flexibilité dans le processus de segmentation. Le développement de l'arbre repose sur un critère de découpage basé sur la notion générale d'information ou de vraisemblance. La nature imprécise ou incertaine des données conduit, de façon naturelle, à la notion d'appartenance probabiliste des objets aux différents nœuds de l'arbre. La construction de l'arbre se présente alors sous la forme d'une succession de problèmes de mélange de lois de probabilité que l'on résout à l'aide d'un algorithme de type EM (espérance / maximisation). Nous faisons également le lien, dans un cadre probabiliste, entre la notion d'appartenance probabiliste précédente et celle consécutive à l'emploi d'une coupure souple ou floue. L'approche est illustrée sur un jeu de données médicales relatives à l'utilisation de marqueurs biologiques sur des types cellulaires, et dans l'objectif de caractériser le concept de système neuroendocrinien.
APA, Harvard, Vancouver, ISO, and other styles
13

Aaron, Catherine. "Connexité et analyse des données non linéaires." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2005. http://tel.archives-ouvertes.fr/tel-00308495.

Full text
Abstract:
On s'intéresse dans cette thèse, à la mise en évidence des propriétés de connexité dans les données à analyser. Dans le cas de l'analyse des données ”classique” (i.e. linéaire), comme les surfaces de séparation des classes sont des hyperplans (des droites en dimension 2), la notion topologique sous-jacente est presque toujours la convexité. Au contraire dans tout ce qui suit, on cherche en priorité à segmenter les données en sous-ensembles (classes) connexes.
APA, Harvard, Vancouver, ISO, and other styles
14

Darlay, Julien. "Analyse combinatoire de données : structures et optimisation." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00683651.

Full text
Abstract:
Cette thèse porte sur des problèmes d'exploration de données avec le point de vue de la recherche opérationnelle. L'exploration de données consiste en l'apprentissage de nouvelles connaissances à partir d'observations contenues dans une base de données. La nature des problèmes rencontrés dans ce domaine est proche de celle des problèmes de la recherche opérationnelle: grandes instances, objectifs complexes et difficulté algorithmique. L'exploration de données peut aussi se modéliser comme un problème d'optimisation avec un objectif partiellement connu. Cette thèse se divise en deux parties. La première est une introduction à l'exploration de données. Elle présente l'Analyse Combinatoire de Données (ACD), une méthode d'exploration de données issue de l'optimisation discrète. Cette méthode est appliquée à des données médicales originales et une extension aux problèmes d'analyse de temps de survie est proposée. L'analyse de temps de survie consiste à modéliser le temps avant un événement (typiquement un décès ou une rechute). Les heuristiques proposées utilisent des techniques classiques de recherche opérationnelle telles que la programmation linéaire en nombres entiers, la décomposition de problème, des algorithmes gloutons. La seconde partie est plus théorique et s'intéresse à deux problèmes combinatoires rencontrés dans le domaine de l'exploration de données. Le premier est un problème de partitionnement de graphes en sous-graphes denses pour l'apprentissage non supervisé. Nous montrons la complexité algorithmique de ce problème et nous proposons un algorithme polynomial basé sur la programmation dynamique lorsque le graphe est un arbre. Cet algorithme repose sur des résultats de la théorie des couplages. Le second problème est une généralisation des problèmes de couverture par les tests pour la sélection d'attributs. Les lignes d'une matrice sont coloriées en deux couleurs. L'objectif est de trouver un sous-ensemble minimum de colonnes tel que toute paire de lignes avec des couleurs différentes restent distinctes lorsque la matrice est restreinte au sous-ensemble de colonnes. Nous montrons des résultats de complexité ainsi que des bornes serrées sur la taille des solutions optimales pour différentes structures de matrices.
APA, Harvard, Vancouver, ISO, and other styles
15

Operto, Grégory. "Analyse structurelle surfacique de données fonctionnelles cétrébrales." Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30060.

Full text
Abstract:
Les images fonctionnelles par résonance magnétique contiennent une mesure de l'activité cérébrale en chaque point du cerveau. Si de nombreuses méthodes existent, l'analyse automatique de ces données reste un problème ouvert. Notamment, la très grande majorité des méthodes considère ces données de façon volumique, dans le domaine 3D d'acquisition. Pourtant, l'essentiel de l'activité a lieu dans le cortex, qui peut être considéré comme une surface. Considérer les données sur la surface corticale présente beaucoup d'avantages : d'une part sa géométrie peut être prise en compte dans toutes les étapes de traitement, d'autre part la prise en compte de l'ensemble du volume réduit le pouvoir de détection des tests statistiques généralement employés. Cette thèse propose ainsi une extension du champ d'application des méthodes volumiques vers le domaine surfacique en abordant la projection des données sur la surface, l'analyse multi-sujets ainsi que l'estimation de la validité des résultats
Functional data acquired by magnetic resonance contain a measure of the activity in every location of the brain. If many methods exist, the automatic analysis of these data remains an open problem. In particular, the huge majority of these methods consider these data in a volume-based fashion, in the 3D acquisition space. However, most of the activity is generated within the cortex, which can be considered as a surface. Considering the data on the cortical surface has many advantages : on one hand, its geometry can be taken into account in every processing step, on the other hand considering the whole volume reduces the detection power of usually employed statistical tests. This thesis hence proposes an extension of the application field of volume-based methods to the surface-based domain by adressing problems such as projecting data onto the surface, performing surface-based multi-subjects analysis, and estimating results validity
APA, Harvard, Vancouver, ISO, and other styles
16

Le, Béchec Antony. "Gestion, analyse et intégration des données transcriptomiques." Rennes 1, 2007. http://www.theses.fr/2007REN1S051.

Full text
Abstract:
Dans le cadre de l'étude des mécanismes moléculaires impliqués dans les processus biologiques liés aux pathologies, la transcriptomique permet d’étudier l’expression de plusieurs milliers de gènes en une seule expérience. Les standards internationaux permettent actuellement de gérer la grande quantité de données générées par cette technologie et de nombreux algorithmes permettent le traitement et l’analyse des données d’expression. Le grand défi d’aujourd’hui réside dans l’interprétation des données, notamment par l’intégration de connaissances biologiques supplémentaires permettant la création d’un contexte d’étude aidant à la compréhension des mécanismes biologiques. Afin de répondre aux besoins liés à l’exploitation de ces données transcriptomiques, un environnement complet et évolutif a été développé, M@IA (Micro@rray Integrated Application), permettant de gérer les expériences de puces à ADN mais également traiter et analyser les données d’expression. Une méthode de biologie intégrative combinant de multiples sources de données a été conçue pour exploiter des listes de gènes différentiellement exprimés par l’interprétation de réseaux de gènes représentés sous forme de graphes d’interaction. Egalement, une méthode de méta-analyse de données d’expression de gènes issues de la bibliographie a permis de sélectionner et combiner des études similaires associées à la progression tumorale du foie. En conclusion, ces travaux s’intègrent totalement à l’actuel développement de la biologie intégrative, indispensable à la résolution des mécanismes physiopathologiques
Aiming at a better understanding of diseases, transcriptomic approaches allow the analysis of several thousands of genes in a single experiment. To date, international standard initiatives have allowed the utilization of large quantity of data generated using transcriptomic approaches by the whole scientific community, and a large number of algorithms are available to process and analyze the data sets. However, the major challenge remaining to tackle is now to provide biological interpretations to these large sets of data. In particular, their integration with additional biological knowledge would certainly lead to an improved understanding of complex biological mechanisms. In my thesis work, I have developed a novel and evolutive environment for the management and analysis of transcriptomic data. Micro@rray Integrated Application (M@IA) allows for management, processing and analysis of large scale expression data sets. In addition, I elaborated a computational method to combine multiple data sources and represent differentially expressed gene networks as interaction graphs. Finally, I used a meta-analysis of gene expression data extracted from the literature to select and combine similar studies associated with the progression of liver cancer. In conclusion, this work provides a novel tool and original analytical methodologies thus contributing to the emerging field of integrative biology and indispensable for a better understanding of complex pathophysiological processes
APA, Harvard, Vancouver, ISO, and other styles
17

Abdali, Abdelkebir. "Systèmes experts et analyse de données industrielles." Lyon, INSA, 1992. http://www.theses.fr/1992ISAL0032.

Full text
Abstract:
L'analyse du fonctionnement des Systèmes de Production Industrielle s'appuie sur des informations de natures diverses. Une bonne partie d'entre elles se présentant sous forme numérisée, on leur applique des méthodes d'analyse des données dont les résultats doivent être confrontés, puis interprétés à l'aide des autres connaissances. Notre travail s'insère dans le cadre de l'application des techniques de l'Intelligence Artificielle à la Statistique. Il vise en particulier à étudier la faisabilité et le développement d'un Système Expert Statistique dans le domaine des Systèmes de Production Industrielle. Nous avons élaboré ALADIN (Aide Logicielle pour l'Analyse de Données Industrielles), un système destiné à aider un utilisateur non-spécialiste à analyser des données recueillies sur des procédés industriels. L'architecture de ce système est flexible et allie aspect qualitatif (connaissances sur les procédés industriels et connaissances sur les méthodes statistiques et d'analyse de données) et aspect quantitatif (collection de programmes d'analyse). Pour l'instant, nous nous sommes limités aux problèmes d'Analyse en Composantes Principales. Outre l'aspect industriel, ALADIN présente l'avantage de fournir une assistance au niveau de chacun des nombreux maillons de la conduite d'une analyse de données et particulièrement en amont de l'analyse proprement dite i. E. Lors de la phase de prétraitement et de préparation des données: cette étape, toujours nécessaire compte tenu de la nature des mesures, est en effet généralement longue et fastidieuse
To analyses industrial process behavio, many kinds of information are needed. As tye ar mostly numerical, statistical and data analysis methods are well-suited to this activity. Their results must be interpreted with other knowledge about analysis prcess. Our work falls within the framework of the application of the techniques of the Artificial Intelligence to the Statistics. Its aim is to study the feasibility and the development of statistical expert systems in an industrial process field. The prototype ALADIN is a knowledge-base system designed to be an intelligent assistant to help a non-specialist user analyze data collected on industrial processes, written in Turbo-Prolong, it is coupled with the statistical package MODULAD. The architecture of this system is flexible and combing knowledge with general plants, the studied process and statistical methods. Its validation is performed on continuous manufacturing processes (cement and cast iron processes). At present time, we have limited to principal Components analysis problems
APA, Harvard, Vancouver, ISO, and other styles
18

David, Claire. "Analyse de XML avec données non-bornées." Paris 7, 2009. http://www.theses.fr/2009PA077107.

Full text
Abstract:
Cette thèse est motivée par la spécification et l'analyse de schémas XML, en se focalisant sur données présentes dans les documents. On s'intéresse à des structure de mots et d'arbres dont chaque position ou noeud est étiqueté à la fois par une lettre provenant d'un alphabet fini et par une donnée provenant d'un domaine potentiellement infini muni d'une relation d'égalité. Le travail de cette thèse a été de proposer et étudier des formalismes permettant de spécifier des langages de mots/d'arbres de données et dont le problème de satisfaisabilité soit décidable. Toute la difficulté est de trouver un compromis entre expressivité, décidabilité (et complexité). Une première approche consiste à étendre la logique du premier ordre à l'aide d'un prédicat binaire testant l'égalité de données. On étudie la frontière de décidabilité ainsi que la complexité du problème de satisfaisabilité pour différents fragments/extensions de cette logique et on fait le lien avec la spécification de schémas. Cette approche est élégante et générique, malheureusement les complexités obtenues extrêmement élevées. Afin d'obtenir des résultats de complexité plus raisonnables, on étudie un formalisme basé sur des combinaisons booléennes d'objets appelés "patterns". On s'intéresse encore une fois à la frontière de décidabilité et la complexité du problème de satisfaisabilité, au problème de model-checking. Les complexités obtenues sont plus encourageantes. En terme d'expressivité, ce formalisme est incomparable au précédent, on explicite les liens par rapport aux schémas XML
The motivation of the work is the specification and static analysis of schema for XML documents paying special attention to data values. We consider words and trees whose positions are labeled both by a letter from a finite alphabet and a data value from an infinite domain. Our goal is to find formalisms which offer good trade-offs between expressibility, decidability and complexity (for the satisfiability problem). We first study an extension of first-order logic with a binary predicate representing data equality. We obtain interesting some interesting results when we consider the two variable fragment. This appraoch is elegant but the complexity results are not encouraging. We proposed another formalism based data patterns which can be desired, forbidden or any boolean combination thereof. We drw precisely the decidability frontier for various fragments on this model. The complexity results that we get, while still high, seems more amenable. In terms of expressivity theses two approaches are orthogonal, the two variable fragment of the extension of FO can expressed unary key and unary foreign key while the boolean combination of data pattern can express arbitrary key but can not express foreign key
APA, Harvard, Vancouver, ISO, and other styles
19

Carvalho, Francisco de. "Méthodes descriptives en analyse de données symboliques." Paris 9, 1992. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1992PA090025.

Full text
Abstract:
L'analyse des données symboliques se propose d'étendre la problématique, les méthodes et les algorithmes de l'analyse des données au traitement de connaissances souvent complexes, représentées par les objets symboliques. Dans ce cadre, nous étendons des outils de description couramment utilisés en analyse des données, tels que des histogrammes et des indices de proximité, à la description d'une base de connaissances d'objets symboliques. A partir de l'étude du potentiel de description d'un objet symbolique, nous avons étendu la notion d'histogramme aux variables choisies pour décrire une base de connaissances d'objets symboliques. Nous avons constaté l'importance de certains types de dépendance logique entre les variables sur les résultats obtenus. Nous avons également étudié l'interprétation de ces histogrammes. Pour mesurer la proximité entre les objets symboliques nous avons pu, sous l'angle du potentiel de description, adapter à ces objets les indices de proximité conçus pour les variables binaires, ainsi que l'indice de Minkowski. Cette approche nous a permis d'utiliser la même mesure de proximité indépendamment du type de variable. Nous avons étudié quelques propriétés des indices proposés et nous avons pu établir l'équivalence entre quelques-uns de ces indices. Ces indices tiennent compte des dépendances logiques entre variables. Enfin, nous avons adapté l'algorithme général de classification ascendante hiérarchique pour obtenir une classification d'objets symboliques. Par rapport aux méthodes usuelles de l'analyse des données, nous obtenons une description immédiate de chaque palier par un objet symbolique, nous avons un indice d'agrégation qui est le même aussi bien pour les singletons que pour les paliers, et nous employons un indicage basé sur le potentiel de description de l'objet symbolique décrivant le palier. Nous fournissons aussi une aide à l'interprétation de l'arbre de classification basée sur la re-description des fils de chaque nœud de l'arbre par les variables qui les discriminent
APA, Harvard, Vancouver, ISO, and other styles
20

Royer, Jean-Jacques. "Analyse multivariable et filtrage des données régionalisées." Vandoeuvre-les-Nancy, INPL, 1988. http://www.theses.fr/1988NAN10312.

Full text
Abstract:
Ce travail est consacré à l'analyse multivariable et au filtrage des données régionalisées. On définit un indice de proximité entre échantillons. Une technique de filtrage basée sur l'analyse structurale, la déconvolution géostatistique, a été utilisée pour estimer la fonction de transfert ou identifier le signal de sortie. Le principe de la méthode repose sur le calcul au préalable des fonctions de covariance des signaux d'entrée et de sortie. Par ailleurs une relation théorique reliant la matrice de covariance des erreurs à la granulométrie du milieu étudié est démontrée
APA, Harvard, Vancouver, ISO, and other styles
21

Faye, Papa Abdoulaye. "Planification et analyse de données spatio-temporelles." Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22638/document.

Full text
Abstract:
La Modélisation spatio-temporelle permet la prédiction d’une variable régionalisée à des sites non observés du domaine d’étude, basée sur l’observation de cette variable en quelques sites du domaine à différents temps t donnés. Dans cette thèse, l’approche que nous avons proposé consiste à coupler des modèles numériques et statistiques. En effet en privilégiant l’approche bayésienne nous avons combiné les différentes sources d’information : l’information spatiale apportée par les observations, l’information temporelle apportée par la boîte noire ainsi que l’information a priori connue du phénomène. Ce qui permet une meilleure prédiction et une bonne quantification de l’incertitude sur la prédiction. Nous avons aussi proposé un nouveau critère d’optimalité de plans d’expérience incorporant d’une part le contrôle de l’incertitude en chaque point du domaine et d’autre part la valeur espérée du phénomène
Spatio-temporal modeling allows to make the prediction of a regionalized variable at unobserved points of a given field, based on the observations of this variable at some points of field at different times. In this thesis, we proposed a approach which combine numerical and statistical models. Indeed by using the Bayesian methods we combined the different sources of information : spatial information provided by the observations, temporal information provided by the black-box and the prior information on the phenomenon of interest. This approach allowed us to have a good prediction of the variable of interest and a good quantification of incertitude on this prediction. We also proposed a new method to construct experimental design by establishing a optimality criterion based on the uncertainty and the expected value of the phenomenon
APA, Harvard, Vancouver, ISO, and other styles
22

Jamal, Sara. "Analyse spectrale des données du sondage Euclid." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0263.

Full text
Abstract:
Les futurs sondages à grande échelle, comme la mission Euclid, produiront un large set de données qui nécessitera la mise en place de chaînes de traitement complètement automatisées pour analyser les données, extraire l'information et s'assurer que l'ensemble des exigences est respecté. À partir des données collectées, le redshift est une quantité essentielle à mesurer. Des méthodes distinctes pour l'estimation de redshift existent dans la littérature, mais il n'y a pas à l'heure actuelle une définition d'un critère de qualité automatisé pour juger de la fiabilité d'une mesure de redshift spectroscopique. Dans ce travail, nous avons présenté les techniques usuelles de l'analyse spectrale, comme le filtrage et l'extraction du continu, qui peuvent être réalisées en amont de l'estimation du redshift. Puis, nous nous sommes en grande partie intéressés à la problématique de prise de décision quant à l'évaluation de la fiabilité d'une mesure de redshift en développant une nouvelle méthodologie qui exploite les algorithmes de Machine Learning (ML) et les caractéristiques de la fonction de densité en probabilité du redshift (zPDF) définie dans un cadre bayésien.Notre idée consiste à quantifier, via le ML et des descripteurs des zPDFs, la fiabilité d'une mesure de redshift au sein de partitions distinctes qui décrivent différents niveaux de confiance. Par ex. une estimation de redshift obtenue à partir d'une zPDF multimodale ne dépeint pas le même niveau de confiance que celle obtenue à partir d'une zPDF unimodale. Nous estimons que cette nouvelle méthodologie pourra être exploitée dans le cadre de futurs sondages spectroscopiques à grande échelle comme Euclid
Large-scale surveys, as Euclid, will produce a large set of data that will require the development of fully automated data-processing pipelines to analyze the data, extract crucial information and ensure that all requirements are met. From a survey, the redshift is an essential quantity to measure. Distinct methods to estimate redshifts exist in the literature but there is no fully-automated definition of a reliability criterion for redshift measurements. In this work, we first explored common techniques of spectral analysis, as filtering and continuum extraction, that could be used as preprocessing to improve the accuracy of spectral features measurements, then focused on developing a new methodology to automate the reliability assessment of spectroscopic redshift measurements by exploiting Machine Learning (ML) algorithms and features of the posterior redshift probability distribution function (PDF). Our idea consists in quantifying, through ML and zPDFs descriptors, the reliability of a redshift measurement into distinct partitions that describe different levels of confidence. For example, a multimodal zPDF refers to multiple (plausible) redshift solutions possibly with similar probabilities, while a strong unimodal zPDF with a low dispersion and a unique and prominent peak depicts of a more "reliable" redshift estimate. We assess that this new methodology could be very promising for next-generation large spectroscopic surveys on the ground and space such as Euclid and WFIRST
APA, Harvard, Vancouver, ISO, and other styles
23

Bobin, Jérôme. "Diversité morphologique et analyse de données multivaluées." Paris 11, 2008. http://www.theses.fr/2008PA112121.

Full text
APA, Harvard, Vancouver, ISO, and other styles
24

Lambert, Thierry. "Réalisation d'un logiciel d'analyse de données." Paris 11, 1986. http://www.theses.fr/1986PA112274.

Full text
APA, Harvard, Vancouver, ISO, and other styles
25

Zaidi, Fatima Sehar. "Development of statistical monitoring procedures for compositional data." Thesis, Nantes, 2020. http://www.theses.fr/2020NANT4006.

Full text
Abstract:
La Maîtrise Statistique des Procédés (MSP) est une méthodologie largement utilisée, basée sur la mise en oeuvre des cartes de contrôle, permettant de s'assurer de la stabilité du processus et d'améliorer sa capabilité grâce à la réduction de la variabilité du processus. La sélection d'une carte de contrôle appropriée dépend du type et de la distribution des données. Lorsqu'il existe plusieurs caractéristiques de qualité, des cartes de contrôle multivariées doivent être adoptées. Mais il existe une catégorie spécifique de données multivariées qui sont contraintes par définition et connues sous le nom de données compositionnelles (CoDa). Le but de cette thèse est de proposer et d'étudiersystématiquement de nouvelles cartes de contrôle pour les données compositionnelles qui n'ont pas encore été proposées jusqu'à présent dans la littérature. La carte de contrôle de Hotelling T2-CoDa en présence d'erreur de mesure et la carte de contrôle MEWMA-CoDa en présence d'erreur de mesure ont été proposées surveiller des données compositionnelles. En outre, certaines méthodes non paramétriques pour la surveillace de données compositionnelles ont également été proposés. Les performances de chaque carte de contrôle ont été étudiées et les paramètres optimaux ont été systématiquement évalués. Des exemples de données compositionnelles réelles ont été utilisés afin d'étudier les performances des cartes proposées
Statistical Process Monitoring (SPM) is a widely used methodology, based on the implementation of control charts, for achieving process stability and improving capability through the reduction of the process variability. The selection of a suitable control chart depends on the type and distribution of he data. When there are several quality characteristics, multivariate control charts have to be adopted. But there is a specific category of multivariate data which are constrained by definition and known as Compositional Data (CoDa). This thesis makes an attempt to systematically propose new control charts for the for compositional data that have not yet been proposed so far in the literature. Hotelling T2-CoDa control chart in the presence of measurement error and MEWMACoDa control chart in the presence of measurement error has been proposed for compositional data. Furthermore, some nonparametric charts to monitor compositional data has also been proposed. The performance of each control chart has been studied and the optimal parameters have systematically been evaluated. Real life compositional data examples have been used in order to study the performances of the proposed charts
APA, Harvard, Vancouver, ISO, and other styles
26

Fraisse, Bernard. "Automatisation, traitement du signal et recueil de données en diffraction x et analyse thermique : Exploitation, analyse et représentation des données." Montpellier 2, 1995. http://www.theses.fr/1995MON20152.

Full text
Abstract:
La recherche en chimie du solide necessite l'utilisation et la maitrise de techniques indispensables telles que la diffraction des rayons x et l'analyse thermique. Tout en ameliorant leurs performances, l'automatisation des appareils classiques permet a un grand nombre de laboratoires d'acceder a ces techniques pour un cout modeste. Cette derniere n'a pu etre envisagee qu'apres le developpement d'outils informatiques, en particulier les bibliotheques de communication entre le micro-ordinateur et les differents peripheriques. Les logiciels d'acquisition, d'exploitation, de representation tridimensionnelle et de comparaison des diffractogrammes de rayons x avec ceux contenus dans un fichier de references, ont ete concus et ecrits au laboratoire. De plus, la realisation de chambres de mesures autorise l'enregistrement des diffractogrammes en fonction de la temperature. L'experience acquise a pu etre appliquee a l'analyse thermique: les logiciels ecrits permettent respectivement l'acquisition et l'exploitation des diagrammes d'analyse thermique, directe et differentielle
APA, Harvard, Vancouver, ISO, and other styles
27

Gonzalez, Ignacio. "Analyse canonique régularisée pour des données fortement multidimensionnelles." Toulouse 3, 2007. http://thesesups.ups-tlse.fr/99/.

Full text
Abstract:
Motivé par la mise en évidence des relations entre l'expression de gènes et d'autres variables biologiques, notre travail consiste à présenter et développer une méthodologie répondant à ce problème. Parmi les méthodes statistiques abordant ce sujet, l'Analyse Canonique (AC) semblait bien appropriée, mais la haute dimensionalité est actuellement l'un des obstacles majeurs pour les techniques statistiques d'analyse de données issues de biopuces. Naturellement l'axe de ce travail a été la recherche de solutions tenant compte de cet aspect crucial dans la mise en oeuvre de l'AC. Parmi les approches envisagées pour contourner ce problème, nous nous sommes intéressés à des méthodes de régularisation. Ainsi, la méthode développée ici, appelée Analyse Canonique Régularisée (ACR), est basée sur le principe de régularisation ridge introduit initialement en régression linéaire multiple. L'ACR nécessitant le choix de deux paramètres de réglage pour sa mise en oeuvre, nous avons proposé la méthode de validation croisée par sous-groupes pour traiter ce problème. Nous avons présenté en détail des applications de l'ACR à des données fortement multidimensionnelles provenant d'études génomiques ainsi qu'à des données provenant d'autres domaines. Sur ce point on s'est intéressé à une visualisation des données aidant à l'interprétation des résultats obtenus. À cet effet, nous avons proposé un certaine nombre de méthodes graphiques : représentations des variables (graphiques des corrélations), représentations des individus ainsi que des représentations alternatives comme les graphiques de réseaux et les cartes de double classification (heatmaps). Pour la mise en oeuvre de l'AC, nous avons développé le package CCA (disponible en ligne sur le site cran. R-project. Org). Ce package permet le traitement de données avec plus de variables que d'unités expérimentales par l'ACR, la manipulation des valeurs manquantes et la réalisation des graphiques aidant à l'interprétation des résultats. .
Motivated by the study of relationships between gene expressions and other biological variables, our work consists in presenting and developing a methodology answering this problem. Among the statistical methods treating this subject, Canonical Analysis (CA) seemed well adapted, but the high dimension is at present one of the major obstacles for the statistical techniques of analysis data coming from microarrays. Typically the axis of this work was the research of solutions taking into account this crucial aspect in the implementation of the CA. Among the approaches considered to handle this problem, we were interested in the methods of regularization. The method developed here, called Regularised Canonical Analysis (RCA), is based on the principle of ridge regularization initially introduced in multiple linear regression. RCA needing the choice of two parameters of regulation for its implementation, we proposed the method of M-fold cross-validation to handle this problem. We presented in detail RCA applications to high multidimensional data coming from genomic studies as well as to data coming from other domains. Among other we were interested in a visualization of the data in order to facilitate the interpretation of the results. For that purpose, we proposed some graphical methods: representations of variables (correlations graphs), representations of individuals as well as alternative representations as networks and heatmaps. .
APA, Harvard, Vancouver, ISO, and other styles
28

Bazin, Gurvan. "Analyse différée des données du SuperNova Legacy Survey." Paris 7, 2008. http://www.theses.fr/2008PA077135.

Full text
Abstract:
Le SuperNova Legacy Survey (SNLS) a observé les supernovae de type ia (SNeHa) pendant 5 ans afin de contraindre les paramètres cosmologiques. Sa procédure de sélection en temps réel repose sur l'identification spectroscopique de chaque supernova. Ce recourt systématique à la spectroscopie nécessite un niveau suffisament élevé de signal sur bruit. Il peut donc engendrer des biais de sélection et ne sera plus possible sur les futurs relevés qui observeront des millions de SNeHa. Cette thèse présente une méthode de réduction des données complémentaire reposant sur une sélection purement photométrique. Cette analyse, plus efficace sur la sélection des événements les plus faibles, double approximativement ainsi l'échantillon de SNeHa du SNLS. Cette méthode met en évidence un net biais de sélection spectroscopique. Les SNeHa les plus brillantes sont systématiquement sélectionnées au delà d'un redshift de 0. 7. En revanche, aucun impact important sur la cosmologie n'a été trouvé. Cela prouve que les corrections tenant compte de la variabilité en luminosité des SNeHa sont robustes. De plus, ces travaux constituent une première étude de faisabilité d'une analyse cosmologique complètement photométrique. La méthode utilisée est prometteuse pour les futurs grands projets
The SuperNova Legacy Survey (SNLS) experiment observed type la supemovae (SNeHa) during 5 years. Its aim is the contraint cosmological parameters. The online reduction pipeline is based on spectroscopic identification for each supernova. Systematically using spectroscopy requires a sufficient signal to noise level. Thus, it could lead to selection biases and would not be possible for future surveys The PhD thesis report a complementary method for data reduction based on a completely photometric selection. This analysis, more efficient to select faint events, approximately double the SNeHa sample of the SNLS. This method show a clear bias in the spectroscopic selection. Brighter SNeHa are systematically selected beyond a redshift of 0. 7. On the other hand, no important impact on cosmology was found. So, corrections on intrinsic variability of SNeHa luminosity are robust. In addition, this work is a first step to study the feasibility of such a purely photometric analysis for cosmology. This is a promising method for future projects
APA, Harvard, Vancouver, ISO, and other styles
29

Hapdey, Sébastien. "Analyse de données multi-isotopiques en imagerie monophotonique." Paris 11, 2002. http://www.theses.fr/2002PA11TO35.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Feydy, Jean. "Analyse de données géométriques, au delà des convolutions." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASN017.

Full text
Abstract:
Analyse de données géométriques, au delà des convolutionsPour modéliser des interactions entre points, une méthode simple est de se reposer sur des sommes pondérées communément appelées "convolutions". Au cours de la dernière décennie, cette opération est devenue la brique de construction essentielle à la révolution du "deep learning". Le produit de convolution est, toutefois, loin d'être l'alpha et l'oméga des mathématiques appliquées.Pour permettre aux chercheurs d'explorer de nouvelles directions, nous présentons des implémentations robustes et efficaces de trois opérations souvent sous-estimées:1. Les manipulations de tenseurs semi-symboliques, comme les matrices de distances ou de noyaux.2. Le transport optimal, qui généralise la notion de "tri" aux espaces de dimension D > 1.3. Le tir géodésique sur une variété Riemannienne, qui se substitue à l'interpolation linéaire sur des espaces de données où aucune structure vectorielle ne peut être correctement définie.Nos routines PyTorch/NumPy sont compatibles avec la différentiation automatique, et s'exécutent en quelques secondes sur des nuages de plusieurs millions de points. Elle sont de 10 à 1,000 fois plus performantes que des implémentations GPU standards et conservent une empreinte mémoire linéaire. Ces nouveaux outils sont empaquetés dans les bibliothèques "KeOps" et "GeomLoss", avec des applications qui vont de l'apprentissage automatique à l'imagerie médicale. Notre documentation est accessible aux adresses www.kernel-operations.io/keops et /geomloss
Geometric data analysis, beyond convolutionsTo model interactions between points, a simple option is to rely on weighted sums known as convolutions. Over the last decade, this operation has become a building block for deep learning architectures with an impact on many applied fields. We should not forget, however, that the convolution product is far from being the be-all and end-all of computational mathematics.To let researchers explore new directions, we present robust, efficient and principled implementations of three underrated operations: 1. Generic manipulations of distance-like matrices, including kernel matrix-vector products and nearest-neighbor searches.2. Optimal transport, which generalizes sorting to spaces of dimension D > 1.3. Hamiltonian geodesic shooting, which replaces linear interpolation when no relevant algebraic structure can be defined on a metric space of features.Our PyTorch/NumPy routines fully support automatic differentiation and scale up to millions of samples in seconds. They generally outperform baseline GPU implementations with x10 to x1,000 speed-ups and keep linear instead of quadratic memory footprints. These new tools are packaged in the KeOps (kernel methods) and GeomLoss (optimal transport) libraries, with applications that range from machine learning to medical imaging. Documentation is available at: www.kernel-operations.io/keops and /geomloss
APA, Harvard, Vancouver, ISO, and other styles
31

Hebert, Pierre-Alexandre. "Analyse de données sensorielles : une approche ordinale floue." Compiègne, 2004. http://www.theses.fr/2004COMP1542.

Full text
Abstract:
L'analyse de profils sensoriels vise à décrire la façon dont un ensemble de produits est perçu par un groupe d'individus entraînés, ou juges, selon un ensemble de descripteurs sensoriels. Les évaluations, consistant en l'attribution de notes, sont répétées. L'approche proposée doit son originalité à une modélisation ordinale floue de l'information exprimée. Dans une première étape, une relation floue de dominance faible entre produits est synthétisée par répétition. Puis une procédure d'agrégation sur les répétitions permet de résumer la perception de chaque juge. Une agrégation similaire sur les juges conduit à la synthèse d'une relation consensuelle, caractéristique du descripteur traité. Les procédures d'extraction et de fusion s'inscrivent dans le cadre de la théorie des préférences floues, de façon à faciliter l'interprétation des relations obtenues. Leur analyse mono ou multidimensionnelle est finalement conduite par un ensemble d'outils de représentation graphique
Sensory profile data aims at describing the sensory perceptions of human subjects. Such a data is composed of scores attributed by human sensory experts (or judges) in order to describe a set of products according to sensory descriptors. AlI assessments are repeated, usually three times. The thesis describes a new analysis method based on a fuzzy modelling of the scores. The first step of the method consists in extracting and encoding the relevant information of each replicate into a fuzzy weak dominance relation. Then an aggregation procedure over the replicates allows to synthesize the perception of each judge into a new fuzzy relation. Ln a similar way, a consensual relation is finally obtained for each descriptor by fusing the relations of the judges. So as to ensure the interpretation of fused relations, fuzzy preference theory is used. A set of graphical tools is then proposed for the mono and multidimensional analysis of the obtained relations
APA, Harvard, Vancouver, ISO, and other styles
32

Narozny, Michel. "Analyse en composantes indépendantes et compression de données." Paris 11, 2005. http://www.theses.fr/2005PA112268.

Full text
Abstract:
Dans cette thèse nous nous intéressons à l'analyse en composantes indépendantes (ACI) lorsqu'elle est utilisée en compression de données. Nous montrons d'abord que tes transformations d'ACI sont moins performantes que la transformée de Karhunen-Loève (TKL) en codage d'images en niveaux de gris et d'un signal musical, mais plus performantes que la TKL sur certains signaux synthétiques. Dans le cas d'un codage à haut et moyen débits (respectivement bas débit), le débit de compression est obtenu en calculant l'entropie d'ordre 1 (respectivement d'ordre 2,4 et 9) des coefficients transformés. La mesure de distorsion utilisée est l'erreur quadratique moyenne entre le signal d'entrée et le signal décodé. Ensuite nous montrons que pour des signaux non gaussiens la recherche de la transformation linéaire optimale peut se ramener à un problème d'ACI modifié. Deux nouveaux algorithmes, GCGsup et ICAorth, sont proposés pour calculer la transformation linéaire optimale et la transformation orthogonale optimale respectivement. Dans nos simulations, nous montrons qu'il existe des images en niveaux de gris et des signaux synthétiques qui sont codés plus efficacement avec GCGsup et ICAorth qu'avec la TKL. Enfin, nous nous intéressons également à un schéma de codage d'images multicomposantes associant des décompositions en ondelettes pour la décorrélation spatiale avec les transformations retournées par GCGsup et ICAorth pour réduire la redondance spectrale. Dans ce cas, nous n'avons pas eu le temps de trouver des images multicomposantes pour lesquelles les nouvelles transformation permettent d'obtenir des gains de codage significatifs par rapport à la TKL
In this thesis we are interested in the performances of independent component analysis (ICA) when it is used for data compression. First we show that the ICA transformations yield poor performances compared to the Karhunen-Loeve transform (KIT) for the coding of some continuous-tone images and a musical signal, but can outperform the KTL on some synthetic signals. In medium-to-high (resp. Low) bit rate coding, the bit-rate measured is the empirical first (resp. Second, fourth and ninth) order entropy. The mean square error between the original signal and that reconstructed is used for the evaluation of the distortion. Then we show that for non Gaussian signals the problem of finding the optimal linear transform in transform coding is equivalent to finding the solution of a modified ICA problem. Two new algorithms, GCGsup and ICAorth, are then proposed to compute the optimal linear transform and the optimal orthogonal transform, respectively. In our simulations, we show that GCGsup and ICAorth can outperform the KLT or some continuous-tone images and some synthetic signals. Finally, we are also interested in a multicomponent images coding scheme which employs a wavelet transform for reducing the spatial redundancy and the transformations returned by GCGsup et ICAorth for reducing the spectral redundancy. In this case, further work has to be done in order to find some images whose compression using the new transforms is significantly better than that obtained with the TKL
APA, Harvard, Vancouver, ISO, and other styles
33

Aubert, Julie. "Analyse statistique de données biologiques à haut débit." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS048/document.

Full text
Abstract:
Les progrès technologiques des vingt dernières années ont permis l’avènement d'une biologie à haut-débit reposant sur l'obtention de données à grande échelle de façon automatique. Les statisticiens ont un rôle important à jouer dans la modélisation et l'analyse de ces données nombreuses, bruitées, parfois hétérogènes et recueillies à différentes échelles. Ce rôle peut être de plusieurs natures. Le statisticien peut proposer de nouveaux concepts ou méthodes inspirées par les questions posées par cette biologie. Il peut proposer une modélisation fine des phénomènes observés à l'aide de ces technologies. Et lorsque des méthodes existent et nécessitent seulement une adaptation, le rôle du statisticien peut être celui d'un expert, qui connaît les méthodes, leurs limites et avantages. Le travail présenté dans cette thèse se situe à l'interface entre mathématiques appliquées et biologie, et relève plutôt des deuxième et troisième type de rôles mentionnés.Dans une première partie, j’introduis différentes méthodes développées pour l'analyse de données biologiques à haut débit, basées sur des modèles à variables latentes. Ces modèles permettent d'expliquer un phénomène observé à l'aide de variables cachées. Le modèle à variables latentes le plus simple est le modèle de mélange. Les deux premières méthodes présentées en sont des exemples: la première dans un contexte de tests multiples et la deuxième dans le cadre de la définition d'un seuil d'hybridation pour des données issues de puces à ADN. Je présente également un modèle de chaînes de Markov cachées couplées pour la détection de variations du nombre de copies en génomique prenant en compte de la dépendance entre les individus, due par exemple à une proximité génétique. Pour ce modèle, nous proposons une inférence approchée fondée sur une approximation variationnelle, l'inférence exacte ne pouvant pas être envisagée dès lors que le nombre d'individus augmente. Nous définissons également un modèle à blocs latents modélisant une structure sous-jacente par bloc de lignes et colonnes adaptées à des données de comptage issue de l'écologie microbienne. Les données issues de méta-codebarres ou de métagénomique correspondent à l'abondance de chaque unité d'intérêt (par exemple micro-organisme) d'une communauté microbienne au sein d'environnement (rhizosphère de plante, tube digestif humain, océan par exemple). Ces données ont la particularité de présenter une dispersion plus forte qu'attendue sous les modèles les plus classiques (on parle de sur-dispersion). La classification croisée est une façon d'étudier les interactions entre la structure des communautés microbiennes et les échantillons biologiques dont elles sont issues. Nous avons proposé de modéliser ce phénomène à l'aide d'une distribution Poisson-Gamma et développé une autre approximation variationnelle pour ce modèle particulier ainsi qu'un critère de sélection de modèle. La flexibilité et la performance du modèle sont illustrées sur trois jeux de données réelles.Une deuxième partie est consacrée à des travaux dédiés à l'analyse de données de transcriptomique issues des technologies de puce à ADN et de séquençage de l’ARN. La première section concerne la normalisation des données (détection et correction de biais techniques) et présente deux nouvelles méthodes que j’ai proposées avec mes co-auteurs et une comparaison de méthodes à laquelle j’ai contribuée. La deuxième section dédiée à la planification expérimentale présente une méthode pour analyser les dispositifs dit en dye-switch.Dans une dernière partie, je montre à travers deux exemples de collaboration, issues respectivement d'une analyse de gènes différentiellement exprimés à partir de données issues de puces à ADN, et d'une analyse du traductome chez l'oursin à partir de données de séquençage de l'ARN, la façon dont les compétences statistiques sont mobilisées et la plus-value apportée par les statistiques aux projets de génomique
The technological progress of the last twenty years allowed the emergence of an high-throuput biology basing on large-scale data obtained in a automatic way. The statisticians have an important role to be played in the modelling and the analysis of these numerous, noisy, sometimes heterogeneous and collected at various scales. This role can be from several nature. The statistician can propose new concepts, or new methods inspired by questions asked by this biology. He can propose a fine modelling of the phenomena observed by means of these technologies. And when methods exist and require only an adaptation, the role of the statistician can be the one of an expert, who knows the methods, their limits and the advantages.In a first part, I introduce different methods developed with my co-authors for the analysis of high-throughput biological data, based on latent variables models. These models make it possible to explain a observed phenomenon using hidden or latent variables. The simplest latent variable model is the mixture model. The first two presented methods constitutes two examples: the first in a context of multiple tests and the second in the framework of the definition of a hybridization threshold for data derived from microarrays. I also present a model of coupled hidden Markov chains for the detection of variations in the number of copies in genomics taking into account the dependence between individuals, due for example to a genetic proximity. For this model we propose an approximate inference based on a variational approximation, the exact inference not being able to be considered as the number of individuals increases. We also define a latent-block model modeling an underlying structure per block of rows and columns adapted to count data from microbial ecology. Metabarcoding and metagenomic data correspond to the abundance of each microorganism in a microbial community within the environment (plant rhizosphere, human digestive tract, ocean, for example). These data have the particularity of presenting a dispersion stronger than expected under the most conventional models (we speak of over-dispersion). Biclustering is a way to study the interactions between the structure of microbial communities and the biological samples from which they are derived. We proposed to model this phenomenon using a Poisson-Gamma distribution and developed another variational approximation for this particular latent block model as well as a model selection criterion. The model's flexibility and performance are illustrated on three real datasets.A second part is devoted to work dedicated to the analysis of transcriptomic data derived from DNA microarrays and RNA sequencing. The first section is devoted to the normalization of data (detection and correction of technical biases) and presents two new methods that I proposed with my co-authors and a comparison of methods to which I contributed. The second section devoted to experimental design presents a method for analyzing so-called dye-switch design.In the last part, I present two examples of collaboration, derived respectively from an analysis of genes differentially expressed from microrrays data, and an analysis of translatome in sea urchins from RNA-sequencing data, how statistical skills are mobilized, and the added value that statistics bring to genomics projects
APA, Harvard, Vancouver, ISO, and other styles
34

Kezouit, Omar Abdelaziz. "Bases de données relationnelles et analyse de données : conception et réalisation d'un système intégré." Paris 11, 1987. http://www.theses.fr/1987PA112130.

Full text
Abstract:
Les utilisateurs de bases de données relationnelles ont de plus en plus souvent tendance à attendre des Systèmes de Gestion de Bases de Données (SGBD) des fonctionnalités qui aillent plus loin que l'organisation le stockage et la restitution d'un ensemble de données. D'un autre côté, les utilisateurs de l'analyse statistique multidimensionnelle, qui traitent des tableaux de données rectangulaires, ont de gros problèmes de gestion de leurs données et les outils dont ils disposaient jusqu'à présent manquaient souvent de souplesse, voire de possibilités. Pour répondre à cette préoccupation, cette thèse propose de rapprocher bases de données relationnelles et analyse statistique multidimensionnelle à travers la réalisation d'un système intégrant un SGBD relationnel et un système d'analyse de données, et de montrer par là même tout le bénéfice qui peut en être tiré du point de vue de l'interrogation des données. La première partie se propose de présenter les problèmes généraux naissant de l'intégration. Après une présentation des deux domaines et de certains travaux en bases de données statistiques, nous proposons une synthèse des notions de l'analyse statistique multidimensionnelle et des bases de données relationnelles. Ceci permettra de déboucher sur les spécifications d'un outil intégré de gestion et d'analyse des données et également de mettre en évidence un problème de cohérence particulier. Outre l'apport provenant de chaque part (gestion des données plus performante grâce au SGBD, interrogation statistique grâce au système d'analyse des données), des possibilités nouvelles naissent de l'intégration. Il s'agit principalement de la capacité d'effectuer des requêtes approximatives, que nous défroissons à cette occasion, sur une base de données et de la résolution dans certains cas du problème des données manquantes. La seconde partie est consacrée à la présentation d'une réalisation particulière. Nous avons pour cela intégré le SGBD relationnel PEPIN et le Système de classification automatique SICLA. Le prototype opérationnel permet ainsi de gérer une base de données relationnelle et de l'interroger statistiquement. Un exemple d'utilisation pour le traitement d'une enquête est donné.
APA, Harvard, Vancouver, ISO, and other styles
35

Jais, Jean-Philippe. "Modèles de régression pour l'analyse de données qualitatives longitudinales." Paris 7, 1993. http://www.theses.fr/1993PA077065.

Full text
Abstract:
Les deux principales classes de modèles de régression pour l'analyse des données qualitatives longitudinales ont été étudiées: les équations d'estimation généralisées (GEE) et les modèles a effets mixtes (MIXLOG). Les propriétés statistiques des(GEE) sur des échantillons de taille finie ont été ensuite explorées par des techniques de simulation qui montrent que l'estimation de la variance des paramètres est biaisée sous certaines conditions. Nous avons montre, grâce a la théorie des modèles additifs généralisés, que les propriétés de GEE et de MIXLOG peuvent être étendues a des modèles ou le prédicteur est une somme de fonctions quelconques des covariables initiales. à partir de ce résultat original, des méthodes permettant une description non paramétrique de la liaison réponse-covariable ont été développées. Ces nouvelles méthodes ont été comparées a GEE et MIXLOG sur la base de données médicales, la survenue des complications immédiates observées au cours des échanges plasmatiques
APA, Harvard, Vancouver, ISO, and other styles
36

Kronek, Louis-Philippe. "Analyse combinatoire de données appliquée à la recherche médicale." Grenoble INPG, 2008. http://www.theses.fr/2008INPG0146.

Full text
Abstract:
L’analyse combinatoire de données est une méthode d’apprentissage supervisé développée à partir de la théorie des fonctions booléennes partiellement définies et de l’optimisation combinatoire. En pratique, sa mise en œuvre fait appel à un large ensemble des méthodes de résolutions de la recherche opérationnelle. Le but de ce travail est de continuer le développement de cette méthode en gardant à l’esprit certaines contraintes liées à la recherche médicale et plus particulièrement celle de la lisibilité du résultat qui doit être accessible avec des connaissances mathématiques de base. Nous avons traité trois aspects de ce problème : la génération efficace de modèles, l'adaptation à l'analyse de temps de survie et l'optimisation du déploiement d'un modèle
Logical analysis of a data is a supervised learning method based on theory of partially defined Boolean functions and combinatorial optimization. Its implementation involves a wide range of methods of resolutions of operation research. The purpose of this work is to continue on developing this method keeping in mind constraints relating to medical research and more particularly the elegance and ease of understanding of the result which should be accessible with basic mathematical knowledge. Three parts of this problem has been treated : efficient model generation, adaptation to survival analysis and optimization of the implementation of a new decision model
APA, Harvard, Vancouver, ISO, and other styles
37

El, Hafyani Hafsa. "Analyse de données spatio-temporelles dans le contexte de la collecte participative de données environnementales." Thesis, université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG035.

Full text
Abstract:
La qualité de l'air est l'un des principaux facteurs de risque pour la santé humaine. La collecte participative ou Mobile Crowd Sensing (MCS) en anglais, un nouveau paradigme basé sur la technologie émergente des micro-capteurs connectés, offre la possibilité de mesurer l'exposition individuelle à la pollution de l'air n'importe où et n'importe quand. Cela amène à générer en continu des séries de données géo-localisées, qui finissent par former une grande masses de données. Celle-ci constitue une mine d'information pour des analyses variées et une opportunité unique d'extraction de connaissances sur l'exposition à la pollution. Toutefois, cette analyse est loin d'être simple, car il y a un gap entre les séries de données brutes des capteurs et les informations exploitables. En effet, les données brutes sont irrégulières, bruitées et incomplètes. Le défi majeur que cette thèse cherche à relever est de combler ce gap en proposant une approche holistique d'analyse et d'extraction de connaissance des données collectées dans le contexte du MCS. Nous mettons en oeuvre un processus analytique complet comprenant le prétraitement des données, leur enrichissement avec des informations contextuelles, ainsi que la modélisation et le stockage de ces données. Nous l'avons implémenté en veillant à automatiser son déploiement. Les approches proposées sont appliquées sur des données réelles collectées au sein du projet Polluscope
Air quality is one of the major risk factors in human health. Mobile Crowd Sensing (MCS), which is a new paradigm based on the emerging connected micro-sensor technology, offers the opportunity of the assessment of personal exposure to air pollution anywhere and anytime. This leads to the continuous generation of geolocated data series, which results in a big data volume. Such data is deemed to be a mine of information for various analysis, and a unique opportunity of knowledge discovery about pollution exposure. However, achieving this analysis is far from straightforward. In fact, there is a gap to fill between the raw sensor data series and usable information: raw data is highly uneven, noisy, and incomplete. The major challenge addressed by this thesis is to fill this gap by providing a holistic approach for data analytics and mining in the context of MCS. We establish an end-to-end analytics pipeline, which encompasses data preprocessing, their enrichment with contextual information, as well as data modeling and storage. We implemented this pipeline while ensuring its automatized deployment. The proposed approaches have been applied to real-world datasets collected within the Polluscope project
APA, Harvard, Vancouver, ISO, and other styles
38

Peyre, Julie. "Analyse statistique des données issues des biopuces à ADN." Phd thesis, Université Joseph Fourier (Grenoble), 2005. http://tel.archives-ouvertes.fr/tel-00012041.

Full text
Abstract:
Cette thèse est consacrée à l'analyse statistique des données issues des biopuces à ADN. Nous nous intéressons ici à trois problématiques liées aux données du transcriptôme.

Dans un premier chapitre, nous étudions le problème de la normalisation des données dont l'objectif est d'éliminer les variations parasites entre les échantillons des populations pour ne conserver que les variations expliquées par les phénomènes biologiques. Nous présentons plusieurs méthodes existantes pour lesquelles nous proposons des améliorations. Pour guider le choix d'une méthode de normalisation, une méthode de simulation de données de biopuces est mise au point.

Dans un deuxième chapitre, nous abordons le problème de la détection de gènes différentiellement exprimés entre deux séries d'expériences. On se ramène ici à un problème de test d'hypothèses multiples. Plusieurs approches sont envisagées : sélection de modèles et pénalisation, méthode FDR basée sur une décomposition en ondelettes des statistiques de test ou encore seuillage bayésien.

Dans le dernier chapitre, nous considérons les problèmes de classification supervisée pour les données de biopuces. Pour remédier au problème du "fléau de la dimension", nous avons développé une méthode semi-paramétrique de réduction de dimension, basée sur la maximisation d'un critère de vraisemblance locale dans les modèles linéaires généralisés en indice simple. L'étape de réduction de dimension est alors suivie d'une étape de régression par polynômes locaux pour effectuer la classification supervisée des individus considérés.
APA, Harvard, Vancouver, ISO, and other styles
39

Villa, Francesca. "Calibration photométrique de l'imageur MegaCam : analyse des données SNDice." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00839491.

Full text
Abstract:
L'étalonnage photométrique des imageurs grand champ est à ce jour la principale limitation pour plusieurs mesures de cosmologie, parmi lesquelles celle des paramètres cosmologiques à l'aide des supernovae de type Ia. Afin d'obtenir l'exactitude de l'ordre de 0.1% nécessaire pour les relevés futurs, les collaborations actives dans ce domaine explorent la possibilité de nouvelles techniques de calibration à l'aide d'instruments dédié comme alternative à celle traditionnelle à l'aide d'étoiles standard spectrophotométriques. Le groupe du LPNHE a conçu SNDice, un système d'illumination innovant et très stable qui a été installé dans la dôme du télescope Canada-France-Hawaii pour calibrer l'imageur MegaCam et en suivre les performances. Le but est de démontrer la faisabilité d'une calibration instrumentale absolue exacte à 0.1% ou mieux. Dans la première partie de la thèse, un bref aperçu du modèle standard de la cosmologie et des principales sondes étudiées pour en contraindre les paramètres est suivi par la description de MegaCam et SNDice. La seconde partie s'attache à présenter la construction d'un modèle optique de MegaCam et d'une modélisation géométrique permettant de connaître les attitudes de MegaCam et SNDice dans le dôme. Ces deux modèles ont été implémentés dans un logiciel traceur de rayons, créé à l'aide des librairies ROOT, de façon à simuler l'éclairement du plan focal. Cette simulation permet de distinguer l'illumination directe des contributions dues aux réflexions issues des surfaces du correcteur grand champ. Enfin, est présentée l'application de ces outils pour la première analyse des poses de calibration SNDice: la détermination de la bande passante rM de MegaCam.
APA, Harvard, Vancouver, ISO, and other styles
40

Vatsiou, Alexandra. "Analyse de génétique statistique en utilisant des données pangénomiques." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAS002/document.

Full text
Abstract:
Les phénotypes complexes observés dans les populations humaines contemporaines sont déterminés par la génétique, ainsi que par des facteurs environnementaux. Par exemple, la nutrition et les modes de vie jouent un rôle important dans le développement de maladies multifactorielles, comme l'obésité ou le diabète. L'adaptation sur de tels traits phénotypiques complexes survient généralement sous la forme de modification des fréquences alléliques à de multiple locus, un phénomène nommé sélection polygénique. Les avancées récentes des méthodes statistiques, ainsi que l'émergence des données issues du séquençage haut-débit permettent dorénavant la détection de ces signaux. Ici, nous visons à comprendre à quel point des changements environnementaux peuvent entraîner des modifications dans les pressions sélectives, ainsi que leurs impacts sur la sensibilité aux maladies. Dans ce but, nous proposons une analyse d'enrichissement en groupes de gènes (GSEA, Gene Set Enrichment Analysis) en utilisant des données de scores de sélection sur du polymorphisme nucléotidique (SNP, Single Nucleotide Polymorphism), pour quantifier la pression de sélection sur ces SNP (qui pourrait issus par exemple de méthodes de scan génomique). D'abord, nous effectuons une analyse de sensibilité des méthodes de scan génomique pour examiner leur exactitude. Nous utilisons une analyse par simulation pour étudier leurs performances sous un large éventail de scénarios démographiques complexes et des hypothèses de balayage sélectif fort (hard sweep) ou faible (soft sweep). Ensuite, nous développons SEL-GSEA, un outil utilisant des données de SNP pour identifier des voies biochimiques enrichies en pressions sélectives. Enfin, dans l'optique d'examiner les effets de potentiels changements environnementaux qui pourraient représenter des changements dans les pressions sélectives, nous utilisons SEL-GSEA et Gowinda (un outil disponible en ligne) lors d'une étude population-centrée. Nous analysons trois différentes populations (africains, européens et asiatiques) de la base de données HapMap. Pour obtenir les scores de sélection des SNP qui servent de base à SEL-GSEA, nous utilisons une combinaison de deux méthodes (iHS et XP-CLR) qui sont les plus performantes dans notre analyse de sensibilité. Les résultats de notre analyse montrent une forte pression de sélection sur les voies biochimiques liées à l'immunité, principalement en Afrique, ainsi que sur la glycolyse et la néoglucogenèse en Europe, qui sont des voies liées au métabolisme et au diabète
The complex phenotypes observed nowadays in human populations are determined by genetic as well as environmental factors. For example, nutrition and lifestyle play important roles in the development of multifactorial diseases such as obesity and diabetes. Adaptation on such complex phenotypic traits may occur via allele frequency shifts at multiple loci, a phenomenon known as polygenic selection. Recent advances in statistical approaches and the emergence of high throughput Next Generation Sequencing data has enabled the detection of such signals. Here we aim to understand the extent to which environmental changes lead to shifts in selective pressures as well as the impact of those on disease susceptibility. To achieve that, we propose a gene set enrichment analysis using SNP selection scores that are simply scores that quantify the selection pressure on SNPs and they could be derived from genome-scan methods. Initially we carry out a sensitivity analysis to investigate which of the recent genome-scan methods identify accurately the selected region. A simulation approach was used to assess their performance under a wide range of complex demographic structures under both hard and soft selective sweeps. Then, we develop SEL-GSEA, a tool to identify pathways enriched for evolutionary pressures, which is based on SNP data. Finally, to examine the effect of potential environmental changes that could represent changes in selection pressures, we apply SEL-GSEA as well as Gowinda, an available online tool, on a population-based study. We analyzed three populations (Africans, Europeans and Asians) from the HapMap database. To acquire the SNP selection scores that are the basis for SEL-GSEA, we used a combination of two genome scan methods (iHS and XPCLR) that performed the best in our sensitivity analysis. The results of our analysis show extensive selection pressures on immune related pathways mainly in Africa population as well as on the glycolysis and gluconeogenesis pathway in Europeans, which is related to metabolism and diabetes
APA, Harvard, Vancouver, ISO, and other styles
41

Chavent, Marie. "Analyse de données symboliques : une méthode divisive de classification." Paris 9, 1997. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1997PA090029.

Full text
Abstract:
Cette thèse est axée sur le problème de la classification en analyse des données symboliques. Un formalisme est d'abord proposé dans le but de décrire et de manipuler un tableau de données exprimant un niveau de connaissances plus élevé que de simples observations. On parle alors de données complexes. En effet, afin de tenir compte de l'imprécision, de l'incertitude ou de la variation souvent rencontrées dans les données, un individu pourra être décrit sur chaque variable non seulement par une valeur unique mais aussi par un ensemble de valeurs ou par une distribution sur les valeurs. A partir de ce formalisme a) on propose une méthodologie générale permettant de définir un indice de proximité entre deux vecteurs de descriptions complexes et b) les objets symboliques sont présentés en lien avec la théorie des ensembles flous. Dans ce cadre, nous proposons une méthode divisive de classification hiérarchique. Elle est définie pour tous types de variables (quantitatives, qualitatives), possédant éventuellement une description complexe. A chaque étape on optimise un critère mathématique qui est une extension du critère d'inertie intra-classe au cas de données complexes. L'aspect nomothétique de cette méthode permet de réduire fortement l'aspect combinatoire caractérisant les méthodes divisives. De plus, les classes de la hiérarchie sont munies d'une description simple (une conjonction de propriétés portant sur les variables de l'analyse) facilement interprétable par l'utilisateur. Ces descriptions donnent aussi des règles d'affectation d'un nouvel individu aux classes ainsi construites.
APA, Harvard, Vancouver, ISO, and other styles
42

Yahia, Hussein. "Analyse des structures de données arborescentes représentant des images." Paris 11, 1986. http://www.theses.fr/1986PA112292.

Full text
Abstract:
Nous sommes conduits à introduire une notion d'image aléatoire qui permet, grâce à la technique des fonctions génératrices, d'obtenir les moments des principaux paramètres associes aux algorithmes manipulant de telles structures de données. Les modèles introduits sont suffisamment souples pour contenir virtuellement tous les modèles déjà existants. Nous analysons alors les performances des quadtrees et des octrees du point de vue de l'occupation mémoire puis nous étudions la complexité moyenne des algorithmes de recherche des voisins, de passage inter-représentations, et d'intersection ou de superposition d'images
APA, Harvard, Vancouver, ISO, and other styles
43

Bossut, Philippe. "Analyse des données : application à l'analyse automatique d'images multispectrales." École nationale supérieure des mines de Paris, 1986. http://www.theses.fr/1986ENMP0010.

Full text
Abstract:
La table de hash (hash coding) décrit tout où partie d'une image dans un format pratique pour les algorithmes d'analyse des données et devient un outil indispensable en analyse d'images multispectrales
APA, Harvard, Vancouver, ISO, and other styles
44

Laur, Pierre Alain. "Données semi structurées : Découverte, maintenance et analyse de tendances." Montpellier 2, 2004. http://www.theses.fr/2004MON20053.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Lemoine, Frédéric. "Intégration, interrogation et analyse de données de génomique comparative." Paris 11, 2008. http://www.theses.fr/2008PA112180.

Full text
Abstract:
Nos travaux s’inscrivent dans le projet ANR « Microbiogenomics ». Ce projet a pour but la construction d'un entrepôt de données de génomes bactériens. Cet entrepôt doit rassembler de nombreuses données actuellement dispersées, dans le but d'améliorer l'annotation des génomes bactériens. Au sein de ce projet, nos travaux comportent plusieurs volets. La première problématique porte principalement sur l'extraction et le traitement de données biologiques. Nous nous sommes intéressés plus particulièrement à la conservation de l’ordre des gènes des génomes procaryotes au cours de l’évolution. Pour cela, nous avons mis au point une chaîne de traitements visant à détecter les régions dont l’ordre est conservé. Nous avons ensuite étudié l’évolution relative des protéines codées par les gènes dont l’ordre est conservé par rapport aux autres protéines. Ces données ont été mises à disposition à travers l’outil de visualisation SynteView (http://www. Synteview. U-psud. Fr). Pour élargir l'analyse de ces données de conservation de l'ordre des gènes, il est nécessaire de les croiser avec d'autres types de données comme par exemple de voie métabolique. Ces données, souvent dispersées et hétérogènes sont difficiles à interroger. C’est pourquoi dans un second temps, nous nous sommes concentrés sur la conception et l'interrogation de l'entrepôt. Nous avons conçu une architecture et des algorithmes dans le but d’interroger l’entrepôt, en gardant les points de vue donnés par les sources. Ces algorithmes ont été implémentés dans GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), un module de requête prototype adapté à l'interrogation d'un entrepôt de données génomiques
Our work takes place within the « Microbiogenomics » project. Microbiogenomics aims at building a genomic prokaryotic data warehouse. This data warehouse gathers numerous data currently dispersed, in order to improve functional annotation of bacterial genomes. Within this project, our work contains several facets. The first one focuses mainly on the analyses of biological data. We are particularly interested in the conservation of gene order during the evolution of prokaryotic genomes. To do so, we designed a computational pipeline aiming at detecting the areas whose gene order is conserved. We then studied the relative evolution of the proteins coded by genes that are located in conserved areas, in comparison with the other proteins. This data were made available through the SynteView synteny visualization tool (http://www. Synteview. U-psud. Fr). Moreover, to broaden the analysis of these data, we need to cross them with other kinds of data, such as pathway data. These data, often dispersed and heterogeneous, are difficult to query. That is why, in a second step, we were interested in querying the Microbiogenomics data warehouse. We designed an architecture and some algorithms to query the data warehouse, while keeping the different points of view given by the sources. These algorithms were implemented in GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), a prototype querying module adapted to a genomic data warehouse
APA, Harvard, Vancouver, ISO, and other styles
46

Llobell, Fabien. "Classification de tableaux de données, applications en analyse sensorielle." Thesis, Nantes, Ecole nationale vétérinaire, 2020. http://www.theses.fr/2020ONIR143F.

Full text
Abstract:
Les données structurées sous forme de tableaux se rapportant aux mêmes individus sont de plus en plus fréquentes dans plusieurs secteurs d’application. C’est en particulier le cas en évaluation sensorielle où plusieurs épreuves conduisent à l’obtention de tableaux multiples ; chaque tableau étant rapporté à un sujet (juge, consommateur, …). L’analyse exploratoire de ce type de données a suscité un vif intérêt durant les trente dernières années. Cependant, la classification de tableaux multiples n’a été que très peu abordée alors que le besoin pour ce type de données est important. Dans ce contexte, une méthode appelée CLUSTATIS permettant de segmenter les tableaux de données est proposée. Au cœur de cette approche se trouve la méthode STATIS, qui est une stratégie d’analyse exploratoire de tableaux multiples. Plusieurs extensions de la méthode de classification CLUSTATIS sont présentées. En particulier, le cas des données issues d’une épreuve dite « Check-All-That-Apply » (CATA) est considéré. Une méthode de classification ad-hoc, nommée CLUSCATA, est discutée. Afin d’améliorer l’homogénéité des classes issues aussi bien de CLUSTATIS que de CLUSCATA, une option consistant à rajouter une classe supplémentaire, appelée « K+1 », est introduite. Cette classe additionnelle a pour vocation de collecter les tableaux de données identifiés comme atypiques. Le choix du nombre de classes est abordé, et des solutions sont proposées. Des applications dans le cadre de l’évaluation sensorielle ainsi que des études de simulation permettent de souligner la pertinence de l’approche de classification. Des implémentations dans le logiciel XLSTAT et dans l’environnement R sont présentées
Multiblock datasets are more and more frequent in several areas of application. This is particularly the case in sensory evaluation where several tests lead to multiblock datasets, each dataset being related to a subject (judge, consumer, ...). The statistical analysis of this type of data has raised an increasing interest over the last thirty years. However, the clustering of multiblock datasets has received little attention, even though there is an important need for this type of data.In this context, a method called CLUSTATIS devoted to the cluster analysis of datasets is proposed. At the heart of this approach is the STATIS method, which is a multiblock datasets analysis strategy. Several extensions of the CLUSTATIS clustering method are presented. In particular, the case of data from the so-called "Check-All-That-Apply" (CATA) task is considered. An ad-hoc clustering method called CLUSCATA is discussed.In order to improve the homogeneity of clusters from both CLUSTATIS and CLUSCATA, an option to add an additional cluster, called "K+1", is introduced. The purpose of this additional cluster is to collect datasets identified as atypical.The choice of the number of clusters is discussed, ans solutions are proposed. Applications in sensory analysis as well as simulation studies highlight the relevance of the clustering approach.Implementations in the XLSTAT software and in the R environment are presented
APA, Harvard, Vancouver, ISO, and other styles
47

Jaunâtre, Kévin. "Analyse et modélisation statistique de données de consommation électrique." Thesis, Lorient, 2019. http://www.theses.fr/2019LORIS520.

Full text
Abstract:
En octobre 2014, l'Agence De l'Environnement et de la Maîtrise de l'Energie (ADEME) en coopération avec l'entreprise ENEDIS (anciennement ERDF pour Électricité Réseau Distribution France) a démarré un projet de recherche dénommé "smart-grid SOLidarité-ENergie-iNovation" (SOLENN) avec comme objectifs l'étude de la maîtrise de la consommation électrique par un accompagnement des foyers et la sécurisation de l'approvisionnement électrique entre autres. Cette thèse s'inscrit dans le cadre des objectifs susnommés. Le projet SOLENN est piloté par l'ADEME et s'est déroulé sur la commune de Lorient. Le projet a pour but de mettre en œuvre une pédagogie pour sensibiliser les foyers aux économies d'énergie. Dans ce contexte, nous abordons une méthode d'estimation des quantiles extrêmes et des probabilités d'événements rares pour des données fonctionnelles non-paramétriques qui fait l'objet d'un package R. Nous proposons ensuite une extension du fameux modèle de Cox à hasards proportionnels et permet l'estimation des probabilités d'événements rares et des quantiles extrêmes. Enfin, nous donnons l'application de certains modèles statistique développés dans ce document sur les données de consommation électrique et qui se sont avérés utiles pour le projet SOLENN. Une première application est en liaison avec le programme d'écrêtement mené par ENEDIS afin de sécuriser le fonctionnement du réseau électrique. Une deuxième application est la mise en place du modèle linéaire pour étudier l'effet de plusieurs visites individuelles sur la consommation électrique
In October 2014, the French Environment & Energy Management Agency with the ENEDIS company started a research project named SOLENN ("SOLidarité ENergie iNovation") with multiple objectives such as the study of the control of the electric consumption by following the households and to secure the electric supply. The SOLENN project was lead by the ADEME and took place in Lorient, France. The main goal of this project is to improve the knowledge of the households concerning the saving of electric energy. In this context, we describe a method to estimate extreme quantiles and probabilites of rare events which is implemented in a R package. Then, we propose an extension of the famous Cox's proportional hazards model which allows the etimation of the probabilites of rare events. Finally, we give an application of some statistics models developped in this document on electric consumption data sets which were useful for the SOLENN project. A first application is linked to the electric constraint program directed by ENEDIS in order to secure the electric network. The houses are under a reduction of their maximal power for a short period of time. The goal is to study how the household behaves during this period of time. A second application concern the utilisation of the multiple regression model to study the effect of individuals visits on the electric consumption. The goal is to study the impact on the electric consumption for the week or the month following a visit
APA, Harvard, Vancouver, ISO, and other styles
48

Rodriguez-Rojas, Oldemar. "Classification et modèles linéaires en analyse des données symboliques." Paris 9, 2000. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2000PA090064.

Full text
Abstract:
Ce travail s'inscrit dans le cadre de l'analyse de données symboliques. Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification automatique, aussi bien que quelques modèles lineaux. Ces généralisations seront toujours faites d'après deux principes fondamentaux de l'analyse de données symbolique, à savoir : l'analyse de données classique devrait être toujours un cas particulier de l'analyse de données symbolique et dans une analyse de données symbolique, tant la sortie comme l'entrée devraient être symboliques. Nous présentons deux nouveaux algorithmes, qui généralisent au cas symbolique de l'algorithme cap, l'algorithme cap et l'algorithme capso. Nous généralisons, pour les variables de type intervalle, la moyenne, la médiane, la moyenne des valeurs extrèmes, l'écart type, la déviation quartile, boites de dispersion (boxplot) et la correlation. Trois nouvelles méthodes sont aussi présentées pour effectuer la regression simple pour les variables de type intervalle. Nous étendons la methode d'analyse en composantes principales pour données de type histogramme, nous généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons une méthode pour l'analyse des tableaux de proximités (multidimensional scaling) pour des données de type intervalle, que nous avons dénommée interscal. Pour chacune des méthodes présentées dans cette thèse un outil de logiciel a été mis en application. Ce logiciel a été dénommé PIMAD symbolique (programme integré de méthodes d'analyse de données symbolique).
APA, Harvard, Vancouver, ISO, and other styles
49

Porrot, sylvain. "Complexité de Kolmogorov et analyse de flots de données." Lille 1, 1998. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/1998/50376-1998-209.pdf.

Full text
Abstract:
La description exacte et exhaustive d'un systeme necessite une certaine quantite d'information, l'information globale, generalement inconnue. L'observateur prend connaissance d'un systeme au travers de son comportement, c'est-a-dire sa reaction a certains stimuli. Ce comportement trahit une certaine forme d'information, que nous appelons information sortie. Nous etudions les relations entre ces deux formes d'information en nous placant dans le cadre de la theorie de la complexite de kolmogorov. Nous etudions dans un premier temps des systemes se comportant comme des fonctions recursives. Nous montrons que pour de tels systemes, l'information sortie ne constitue pas une bonne approximation de l'information globale : il est toujours possible de trouver un systeme pour lequel l'information sortie soit arbitrairement moindre que l'information intrinseque. Pour la plupart des systemes toutefois, l'approximation est justifiee. Nous etudions dans un second temps des systemes se comportant comme des transducteurs rationnels deterministes lettre a lettre. Nous montrons que l'observation de la sortie de tels systemes soumis a des entrees aleatoires permet d'obtenir certaines connaissances sur leur structure interne.
APA, Harvard, Vancouver, ISO, and other styles
50

Bodin, Bruno. "Analyse d'Applications Flot de Données pour la Compilation Multiprocesseur." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00922578.

Full text
Abstract:
Les systèmes embarqués sont des équipements électroniques et informatiques, soumis à de nombreuses contraintes et dont le fonctionnement doit être continu. Pour définir le comportement de ces systèmes, les modèles de programmation dataflows sont souvent utilisés. Ce choix de modèle est motivé d'une part, parce qu'ils permettent de décrire un comportement cyclique, nécessaire aux systèmes embarqués ; et d'autre part, parce que ces modèles s'apprêtent à des analyses qui peuvent fournir des garanties de fonctionnement et de performance essentielles. La société Kalray propose une architecture embarquée, le MPPA. Il est accompagné du langage de programmation ΣC. Ce langage permet alors de décrire des applications sous forme d'un modèle dataflow déjà très étudié, le modèle Cyclo-Static Dataflow Graph(CSDFG). Cependant, les CSDFG générés par ce langage sont souvent trop complexes pour permettre l'utilisation des techniques d'analyse existantes. L'objectif de cette thèse est de fournir des outils algorithmiques qui résolvent les différentes étapes d'analyse nécessaires à l'étude d'une application ΣC, mais dans un temps d'exécution raisonnable, et sur des instances de grande taille. Nous étudions trois problèmes d'analyse distincts : le test de vivacité, l'évaluation du débit maximal, et le dimensionnement mémoire. Pour chacun de ces problèmes, nous fournissons des méthodes algorithmiques rapides, et dont l'efficacité a été vérifiée expérimentalement. Les méthodes que nous proposons sont issues de résultats sur les ordonnancements périodiques ; elles fournissent des résultats approchés et sans aucune garantie de performance. Pour pallier cette faiblesse, nous proposons aussi de nouveaux outils d'analyse basés sur les ordonnancements K-périodiques. Ces ordonnancements généralisent nos travaux d'ordonnancement périodiques et nous permettrons dans un avenir proche de concevoir des méthodes d'analyse bien plus efficaces.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography