To see the other types of publications on this topic, follow the link: Données de taille variable.

Dissertations / Theses on the topic 'Données de taille variable'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Données de taille variable.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Bijou, Mohammed. "Qualité de l'éducation, taille des classes et mixité sociale : Un réexamen à partir des méthodes à variables instrumentales et semi-paramétriques sur données multiniveaux - Cas du Maroc -." Electronic Thesis or Diss., Toulon, 2021. http://www.theses.fr/2021TOUL2004.

Full text
Abstract:
L’objectif de ce travail est d’évaluer la qualité du système éducatif marocain à partir des données du programme TIMSS et PIRLS 2011. Le travail s’articule autour de trois chapitres. Il s’agit d’étudier, dans le premier chapitre, l’influence des caractéristiques individuelles de l’élève et de l’école sur les performances scolaires, ainsi que le rôle important de l'environnement scolaire (effet taille et composition sociale). Dans le deuxième chapitre, nous cherchons à estimer la taille de classe optimale qui assure une réussite généralisée de tous les élèves des deux niveaux à savoir, la 4e année primaire et la 2e année collégiale. Le troisième chapitre propose d’étudier la relation existante entre la composition sociale et économique de l’établissement et la performance scolaire, tout en démontrant le rôle de la mixité sociale dans la réussite des élèves. Pour ce faire, nous avons utilisé différentes approches économétriques, à savoir une modélisation multiniveau avec correction du problème de l’endogénéité (chapitre 1), un modèle semi-paramétrique hiérarchique dans le (chapitre 2) et un modèle semi paramétrique hiérarchique contextuel (chapitre 3). Les résultats montrent que la performance scolaire est déterminée par plusieurs facteurs intrinsèques à l'élève et également contextuels. En effet, une taille de classe moins chargée et une école à composition sociale mixte sont les deux éléments essentiels pour un environnement favorable et un apprentissage assuré pour l’ensemble des élèves. Selon nos résultats, les pouvoirs publics devraient accorder la priorité à la réduction de la taille des classes en la limitant à 27 élèves au maximum. De plus, il est nécessaire d’envisager un assouplissement de la carte scolaire afin de favoriser la mixité sociale à l’école. Les résultats obtenus permettent une meilleure compréhension du système scolaire marocain, dans son aspect qualitatif et la justification des politiques éducatives pertinentes pour améliorer la qualité du système éducatif marocain
This thesis objective is to examine the quality of the Moroccan education system exploiting the data of the programs TIMSS and PIRLS 2011.The thesis is structured around three chapters. The first chapter examines the influence of individual student and school characteristics on school performance, as well as the important role of the school environment (effect of size and social composition). In the second chapter, we seek to estimate the optimal class size that ensures widespread success for all students at both levels, namely, the fourth year of primary school and the second year of college. The third chapter proposes to study the relationship between the social and economic composition of the school and academic performance, while demonstrating the role of social mix in student success. In order to study this relationship, we mobilize different econometric approaches, by applying a multilevel model with correction for the problem of endogeneity (chapter 1), a hierarchical semi-parametric model (chapter 2) and a contextual hierarchical semi-parametric model (chapter 3). The results show that academic performance is determined by several factors that are intrinsic to the student and also contextual. Indeed, a smaller class size and a school with a mixed social composition are the two essential elements for a favourable environment and assured learning for all students. According to our results, governments should give priority to reducing class size by limiting it to a maximum of 27 students. In addition, it is necessary to consider making the school map more flexible in order to promote social mixing at school. The results obtained allow a better understanding of the Moroccan school system, in its qualitative aspect and the justification of relevant educational policies to improve the quality of the Moroccan education system
APA, Harvard, Vancouver, ISO, and other styles
2

Sanchez, Théophile. "Reconstructing our past ˸ deep learning for population genetics." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG032.

Full text
Abstract:
Avec l'explosion des technologies de séquençage, de plus en plus de données génomiques sont disponibles, ouvrant la voie à une connaissance approfondie des forces évolutives en œuvre et en particulier de l'histoire démographique des populations. Toutefois, extraire l'information intéressante de ces données massives de manière efficace reste un problème ouvert. Compte tenu de leurs récents succès en apprentissage statistique, les réseaux de neurones artificiels sont un candidat sérieux pour mener à bien une telle analyse. Ces méthodes ont l'avantage de pouvoir traiter des données ayant une grande dimension, de s'adapter à la plupart des problèmes et d'être facilement mis à l'échelle des moyens de calcul disponibles. Cependant, leur performance dépend fortement de leur architecture qui requiert d'être en adéquation avec les propriétés des données afin d'en tirer le maximum d'information. Dans ce cadre, cette thèse présente de nouvelles approches basées sur l'apprentissage statistique profond, ainsi que les principes permettant de concevoir des architectures adaptées aux caractéristiques des données génomiques. L'utilisation de couches de convolution et de mécanismes d'attention permet aux réseaux présentés d'être invariants aux permutations des haplotypes échantillonnés et de s'adapter à des données de dimensions différentes (nombre d'haplotypes et de sites polymorphes). Les expériences conduites sur des données simulées démontrent l'efficacité de ces approches en les comparant à des architectures de réseaux plus classiques, ainsi qu'à des méthodes issues de l'état de l'art. De plus, la possibilité d'assembler les réseaux de neurones à certaines méthodes déjà éprouvées en génétique des populations, comme l'approximate Bayesian computation, permet d'améliorer les résultats et de combiner leurs avantages. La praticabilité des réseaux de neurones pour l'inférence démographique est testée grâce à leur application à des séquences génomiques complètes provenant de populations réelles de Bos taurus et d'Homo sapiens. Enfin, les scénarios obtenus sont comparés aux connaissances actuelles de l'histoire démographique de ces populations
Constant improvement of DNA sequencing technology that produces large quantities of genetic data should greatly enhance our knowledge of evolution, particularly demographic history. However, the best way to extract information from this large-scale data is still an open problem. Neural networks are a strong candidate to attain this goal, considering their recent success in machine learning. These methods have the advantages of handling high-dimensional data, adapting to most applications and scaling efficiently to available computing resources. However, their performance dependents on their architecture, which should match the data properties to extract the maximum information. In this context, this thesis presents new approaches based on deep learning, as well as the principles for designing architectures adapted to the characteristics of genomic data. The use of convolution layers and attention mechanisms allows the presented networks to be invariant to the sampled haplotypes' permutations and to adapt to data of different dimensions (number of haplotypes and polymorphism sites). Experiments conducted on simulated data demonstrate the efficiency of these approaches by comparing them to more classical network architectures, as well as to state-of-the-art methods. Moreover, coupling neural networks with some methods already proven in population genetics, such as the approximate Bayesian computation, improves the results and combines their advantages. The practicality of neural networks for demographic inference is tested on whole genome sequence data from real populations of Bos taurus and Homo sapiens. Finally, the scenarios obtained are compared with current knowledge of the demographic history of these populations
APA, Harvard, Vancouver, ISO, and other styles
3

Caron, Eddy. "Calcul numérique sur données de grande taille." Amiens, 2000. https://tel.archives-ouvertes.fr/tel-01444591.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Manouvrier, Maude. "Objets similaires de grande taille dans les bases de données." Paris 9, 2000. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2000PA090033.

Full text
Abstract:
Le but de notre recherche est d'aborder les problèmes de versions d'objets de grande taille dans les bases de données. Les images sont des objets de grande taille, faiblement structurés, qu'il est possible d'organiser par des structures telles que l'arbre quaternaire. En traitement d'images, les utilisateurs ont besoin de conserver différents états d'une même image, chaque état correspondant au résultat d'une opération ou d'une série d'opérations particulières sur l'image. Ces états peuvent être considérés comme des versions d'images. Nous proposons une structure, l'arbre quaternaire générique, qui stocke des images similaires, la similarité étant définie par une distance entre les arbres quaternaires représentant les images. Deux images sont similaires si leurs arbres quaternaires diffèrent seulement sur un nombre relativement faible de nuds. L'arbre quaternaire générique minimise l'espace de stockage, par partage de parties communes entre images, et permet d'appliquer des opérations sur les images, comme la comparaison d'images, la comparaison d'une même région dans différentes images ou la mise à jour simultanée de différentes images. Les objets de grande taille, fortement structurés, se trouvent naturellement dans les SGBDOO, lors de la manipulation de racines de persistance (ensemble d'identificateurs d'objets), par exemple. Nos travaux permettent également de répondre aux problèmes de redondance lors du stockage des versions d'ensemble ou de collection d'objets. Ces objets de grande taille sont gérés le plus souvent a l'aide de structures d'index comme les arbres b+. Nous proposons des mécanismes de gestion de versions d'arbre b+ pour optimiser la gestion de versions de collection d'objets. Les mécanismes proposés dans cette thèse peuvent être généralisés aux structures d'index arborescentes en général, offrant par conséquent un large domaine d'applications couvrant en particulier les systèmes d'informations géographiques et les entrepôts de données.
APA, Harvard, Vancouver, ISO, and other styles
5

Goddard, Jean-Philippe. "Synthèse de molécules de taille variable par polyhomologation de composés borés." Paris 11, 2002. http://www.theses.fr/2002PA112064.

Full text
Abstract:
Lors de ce travail, nous avons développé une méthode de synthèse originale permettant d'accéder à des mélanges de molécules de taille variable dans le but de découvrir de nouvelles molécules complexantes du césium. Cette méthode fait intervenir une réaction de polyhomologation de composés borés à l'aide de nucléophiles comportant un groupement partant en alpha de la charge négative. Nous avons testé différentes familles de nucléophiles comme les anions de sulfones, les ylures de sulfonium, les anions d'hydrazones, le triméthylsilyldiazométhane et les ylures d'arsonium. Les trois premières familles ne nous ont pas permis de réaliser des réactions de polyhomologation. Le triméthylsilyldiazométhane ne possède pas non plus la capacité à réaliser des réactions d'insertions successives mais cette propriété a été exploitée pour proposer une transformation chimique d'un alcène en alkylméthanol correspondant. Les ylures d'arsonium ont permis de réaliser des réactions de polyhomologation avec des boronates et des boranes. Les ylures d'alkylarsonium ont été utilisés pour former des polymères de taille contrôlée possédant une ramification sur chacun des atomes de carbones de la chaîne principale. Ce type de polymère n'est pas accessible par les méthodes de polymérisation actuelles. Les ylures d'allylarsonium possèdent une réactivité particulière puisque les boranes allyliques formés lors des réactions d'insertion subissent un réarrangement sigmatropique [1,3] avant de réagir de nouveau avec un ylure. Il est ainsi possible d'accéder à des polymères de grande taille dont la structure est proche de celle du caoutchouc naturel. Par cette méthode il est possible d'accéder à des polymères linéaires ou cycliques. Cette méthode est actuellement en cours de développement au laboratoire pour former des structures complexantes du césium
During this work, we developed a method of original synthesis allowing to lead mixtures of molecules of variable size with an aim of discovering new chelating molecules of cesium. This method utilizes a reaction of polyhomologation of borated compounds with the nucleophilic ones comprising a grouping leaving in alpha of the negative charge. We tested various families from nucleophilic like anions of sulfones, sulfonium ylides, anions of hydrazones, triméthylsilyldiazométhane and arsonium ylides. The first three families did not allow us to carry out reactions of polyhomologation. The triméthylsilyldiazométhane posséde not either the capacity to carry out reactions successive insertions but this property was exploited to propose a chemical conversion of olefinic hydrocarbon into alkylmethanol corresponding. The arsonium ylides made it possible to carry out reactions of polyhomologation with boronates and boranes. The alkylarsonium ylides were used to form polymers of controlled size having a ramification on each carbon atom of the principal chain. This type of polymer is not accessible by the current methods of polymerization. The allylarsonium ylides have a particular reactivity since the allyl boranes formed during the insertion reactions undergo a sigmatropic [1,3] rearrangement before reacting again with a ylide. It is thus possible to lead with polymers of big size to which the structure is close to that of the natural rubber. By this method it is possible to lead with linear or cyclic polymers. This method is currently under development at the laboratory to form chelating structures of cesium
APA, Harvard, Vancouver, ISO, and other styles
6

Uribe, Lobello Ricardo. "Génération de maillages adaptatifs à partir de données volumiques de grande taille." Thesis, Lyon 2, 2013. http://www.theses.fr/2013LYO22024.

Full text
Abstract:
Dans cette thèse, nous nous sommes intéressés au problème de l'extraction d'une surface à partir de la représentation volumique d'un objet. Dans ce but, nous nous sommes concentrés sur les méthodes de division spatiale. Ces approches divisent le volume afin de construire une approximation par morceaux de la surface de l'objet. L'idée générale consiste à faire des approximations surfaciques locales qui seront ensuite combinées pour extraire une surface unique représentant l'objet. Les approches basées sur l'algorithme " Marching Cubes " (MC) présentent des défaut par rapport à la qualité et l'adaptativité de la surface produite. Même si une considérable quantité d'améliorations ont été apportées à la méthode originale, la plus grande partie des algorithmes fournissent la solution à un ou deux défauts mais n'arrivent pas à surmonter toutes ses limitations.Les méthodes duales sont plus adaptées pour utiliser un échantillonnage adaptatif sur le volume d'intérêt. Ces méthodes reposent sur la génération de surfaces duales à celles construites par MC ou se basent sur des grilles duales. Elles construisent des maillages moins denses et en même temps capables de mieux approcher les détails de l'objet. De plus, des améliorations récentes garantissent que les maillages extraits ont de bonnes propriétés topologiques et géométriques.Nous avons étudié les caractéristiques spécifiques des objets volumiques par rapport à leur géométrie et à leur topologie. Nous avons exploré l'état de l'art sur les approches de division spatiale afin d'identifier leurs avantages et leurs inconvénients ainsi que les implications de leur utilisation sur des objets volumiques. Nous avons conclu qu'une approche duale était la mieux adaptée pour obtenir un bon compromis entre qualité du maillage et qualité de l'approximation. Dans un second temps, nous avons proposé et développé un pipeline de génération de surfaces basé sur une combinaison d'une approche duale et de la recherche de composantes connexes n-dimensionnels pour mieux reproduire la topologie et la géométrie des objets originels. Dans un troisième temps, nous avons présenté une extension "out-of-core" de notre chaîne de traitements pour l'extraction des surfaces à partir de grands volumes. Le volume est divisé pour générer des morceaux de surface de manière indépendante et garde l'information nécessaire pour les connecter afin de produire une surface unique topologiquement correcte.L'approche utilisée permet de paralléliser le traitement pour accélérer l'obtention de la surface. Les tests réalisés ont permis de valider la méthode sur des données volumiques massives
In this document, we have been interested in the surface extraction from the volumetric representation of an object. With this objective in mind, we have studied the spatial subdivision surface extraction algorithms. This approaches divide the volume in order to build a piecewise approximation of the surface. The general idea is to combine local and simple approximations to extract a complete representation of the object's surface.The methods based on the Marching Cubes (MC) algorithm have problems to produce good quality and to handle adaptive surfaces. Even if a lot of improvements to MC have been proposed, these approaches solved one or two problems but they don't offer a complete solution to all the MC drawbacks. Dual methods are more adapted to use adaptive sampling over volumes. These methods generate surfaces that are dual to those generated by the Marching Cubes algorithm or dual grids in order to use MC methods. These solutions build adaptive meshes that represent well the features of the object. In addition, recent improvements guarantee that the produced meshes have good geometrical and topological properties.In this dissertation, we have studied the main topological and geometrical properties of volumetric objects. In a first stage, we have explored the state of the art on spatial subdivision surface extraction methods in order to identify theirs advantages, theirs drawbacks and the implications of theirs application on volumetric objects. We have concluded that a dual approach is the best option to obtain a good compromise between mesh quality and geometrical approximation. In a second stage, we have developed a general pipeline for surface extraction based on a combination of dual methods and connected components extraction to better capture the topology and geometry of the original object. In a third stage, we have presented an out-of-core extension of our surface extraction pipeline in order to extract adaptive meshes from huge volumes. Volumes are divided in smaller sub-volumes that are processed independently to produce surface patches that are later combined in an unique and topologically correct surface. This approach can be implemented in parallel to speed up its performance. Test realized in a vast set of volumes have confirmed our results and the features of our solution
APA, Harvard, Vancouver, ISO, and other styles
7

Lê, Thanh Vu. "Visualisation interactive 3D pour un ensemble de données géographiques de très grande taille." Pau, 2011. http://www.theses.fr/2011PAUU3005.

Full text
Abstract:
La visualisation temps réel du terrain reste depuis longtemps un domaine de recherche actif dans de nombreuses applications informatiques comme les systèmes d’information géographique (SIG), les jeux en 3D ou la réalité virtuelle. L’évolution des techniques d’acquisitions de données et l’amélioration des techniques de visualisation nous apportent une augmentation considérable dans la résolution des données pour les modèles numérique de terrain (MNT) et dans les nouvelles méthodes d’affichage pour représenter ces informations. Dans cette thèse, nous présentons notre framework de rendu de terrain que nous résumons ici en plusieurs contributions : notre première contribution consiste en une architecture simple et efficace qui permet de visualiser des terrains de très grande taille. La méthode utilisée permet de travailler hors mémoire centrale en utilisant une structure de données de type quadtree tout en étant capable de garder une précision de la géométrie et de la couleur au niveau pixel grâce aux différents critères de subdivision. Notre architecture sépare la gestion des données raster sur le CPU et l’affichage en 3D effectuée sur le GPU. Notre deuxième contribution est une méthode originale pour enlever les artéfacts qui apparaissent sur la jointure entre la frontière des blocs de quadtree, nous générons une surface continue sans avoir besoin d’utiliser de maillages supplémentaires. Notre dernière contribution est une méthode efficace adaptée avec notre structure de données pour le geomorphing, cette dernière peut être implémentée entièrement sur le GPU. Par rapport aux méthodes existantes, nos méthodes présentent de nombreux avantages : il n’y a pas de gestion de maillage dans la structure de données ; la complexité du terrain est contrôlable jusqu’au niveau du pixel et dépend de la projection d’erreur métrique, le terrain de basse précision géométrique obtient toujours une bonne précision en ce qui concerne la silhouette des objets grâce à la technique dite du normal ; une grande vitesse d’interaction et de rendu grâce au chargement de données à la demande ; et enfin une transformation similaire pour la géométrie et la texture qui facilite la gestion de données par le CPU
Real-time terrain rendering remains an active area of research for a lot of modern computer based applications such as geographic information systems (GIS), interactive 3D games, flights simulators or virtual reality. The technological breakthroughs in data aquisition, coupled with recent advances in display technology have simultaneously led to substantial increases in resolution of both the Digital Elevation Models (DEM) and the various displays used to present this information. In this phD, we have presented a new out-of-core terrain visualization algorithm that achieves per-pixel accurate shading of large textured elevation maps in real-time : our first contribution is the LOD scheme which is based on a small precomputed quadtree of geometric errors, whose nodes are selected for asynchronous loading and rendering depending on a projection in screenspace of those errors. The terrain data and its color texture are manipulated by the CPU in a unified manner as a collection of raster image patches, whose dimensions depends on their screen-space occupancy ; our second contribution is a novel method to remove artifacts that appear on the border between quadtree blocks, we generate a continuous surface without needing additional mesh ; our latest contribution is an effective method adapted to our data structure for the geomorphing, it can be implemented entirely on the GPU. The presented framework exhibits several interesting features over other existing techniques : there is no mesh manipulation or mesh data structures required ; terrain geometric complexity only depends on projected elevation error views from above result in very coarse meshes), lower geometric complexity degrades terrain silhouettes but not details brought in through normal map shading, real-time rendering with support for progressive data loading ; and geometric information and color textures are similarly and efficiently handled as raster data by the CPU. Due to simplified data structures, the system is compact, CPU and GPU efficient and is simple to implement
APA, Harvard, Vancouver, ISO, and other styles
8

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136/document.

Full text
Abstract:
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations
APA, Harvard, Vancouver, ISO, and other styles
9

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136.

Full text
Abstract:
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations
APA, Harvard, Vancouver, ISO, and other styles
10

Pham, Thi Thuy Ngoc. "Estimation de mouvement avec bloc de taille variable et application dans un réducteur de bruit." Mémoire, Université de Sherbrooke, 2005. http://savoirs.usherbrooke.ca/handle/11143/1320.

Full text
Abstract:
Une séquence vidéo, une source riche d'information visuelle, possède une corrélation élevée dans la direction du mouvement entre les images consécutives. Cette corrélation peut être utilisée dans plusieurs applications comme le codage, la réduction du bruit, l'interpolation temporelle, etc. Pour l'exploiter, les méthodes d'estimation de mouvement qui sont à la fois efficaces et rapides sont vraiment nécessaires. Dans ce mémoire, une nouvelle méthode d'estimation de mouvement basée sur l'appariement de bloc et la recherche exhaustive de vecteur de mouvement sera proposée. Grâce à un nouveau critère d'évaluation, son coût de calcul est inférieur à celui de la méthode de recherche exhaustive existant. De plus, la taille de bloc, qui est variable, permet de bien estimer les zones des détails en mouvement. Sa performance peut être comparable à la méthode de recherche exhaustive. La compensation de mouvement avec bloc à recouvrement qui réduit l'artefact de bloc et l'erreur de prédiction, est aussi proposée. La combinaison des méthodes d'estimation et de compensation de mouvement sera appliquée à la réduction temporelle du bruit afin de préserver les fréquences élevées des images traitées. Le réducteur de bruit développé comprend deux composantes: un réducteur temporel avec compensation de mouvement et un réducteur spatial.
APA, Harvard, Vancouver, ISO, and other styles
11

Pham, Thi Thuy Ngoc. "Estimation de mouvement avec bloc de taille variable et application dans un réducteur de bruit." [S.l. : s.n.], 2005.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
12

Shi, Li. "Structures de complexes électrostatiques entre un polyélectrolytes de rigidité variable et des nanoparticules de taille contrôlée." Paris 7, 2013. http://www.theses.fr/2013PA077079.

Full text
Abstract:
La complexation électrostatique entre un polyélectrolyte et des nanoparticules de charges opposées attire beaucoup d'attentions pour de nombreuses applications dans les différents domaines. Dans le cadre de cette thèse, nous nous sommes intéressés particulièrement au rôle du rapport LP/R sur la formation des complexes. Pour varier ce paramètre sur une grande gamme, nous avons pris des systèmes modèles issus de combinaisons de quatre polyélectrolytes de rigidité différente et trois types de nanoparticules chargées de tailles différents, dont des nanoparticules d'or chargées positivement synthétisées par nous-mêmes. Pour chaque système, nous avons d'abord caractérisé le comportement macroscopique des complexes en fonction des concentrations, par un diagramme de phase (deux domaines monophasiques encadrant un domaine diphasique). Ensuite, à l'aide des techniques de diffusion du rayonnement -lumière, rayons-X et neutrons, nous avons comparé les différentes structures des complexes (taille, dimension fractale, Df). Ces structures sont confirmées par cryo-TEM. Pour LP/R ~1, nous auto-assemblons des NPs en bâtons solubles dans le domaine monophasique du diagramme de phase en excès de NPs. Dans les autres domaines, les structures sont branchées avec des dimensions fractales de 1. 5 à 2. 5. En plus de LP/R, nous avons aussi montré que le sel, en écrantant les répulsions électrostatiques entre complexes, accélère la séparation de phase et accroît la compacité de leurs structures. Spécifiquement, pour la complexation hyaluronan-AuNPs, nous avons observé la diffraction (DXPA) de métacristaux mixtes de nanoparticules inattendus
Electrostatic complexation process involving polyelectrolyte and nanoparticles of opposite charge are receiving an increasing interest in view of their implications in numerous domains. In this thesis, we are particularly interested in the role of ratio LP/R on the formation of complexes. To realize the variation of this parameter, we have chosen five model Systems by the combination of four polyelectrolytes of différent rigidity and three oppositely charged nanoparticles of different sizes, including the positively charged AuNPs synthesized by ourselves. For each System, we have in the first place studied the macroscopic behaviors of complexes formed at different concentration ratio of PEL and NPs, which were recorded in the phase diagrams. Then, the structures of so formed complexes were studied by a combination of cryo-TEM, small-angle neutron, X-ray, and light scattering (size, fractal dimension Df). We have in particular revealed for Lp/R ~1 the formation of well-defined single-strand nanorods and also of randomly branched complexes (Df between 1. 5 and 3) respectively in the two monophasic domains (excess of nanoparticles or of PEL chains). Besides the ratio LP/R, the salt effect was also studied by comparing salt-free System with the one in presence of additional salt, and we proved that the addition of salt can screen the repulsive charges of complexes which results in rapid phase separation and more compact complex structure. Moreover, we have observed unexpectedly the formation of AuNPs nanoparticles- Hyaluronan chains metacrystals
APA, Harvard, Vancouver, ISO, and other styles
13

Benali, Khairidine. "Commande d'un système robotisé de type torse humanoïde pour le transport de colis de taille variable." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMLH22.

Full text
Abstract:
Dans les entrepôts logistiques, les moyens robotiques sont de plus en plus fréquemment utilisés pour réduire les temps non productifs, déplacer des charges lourdes, limiter les risques d'erreurs pendant les opérations de préparation de commandes (picking, de/palettisation,...), faire des inventaires (drones,...) et améliorer les conditions de travail des opérateurs humains. Bien que l'homme reste incontournable pour les tâches de préparation de commande à cause de son adresse et de son aptitude à s'adapter à des tâches toujours différentes, l'augmentation de la productivité est souvent synonyme d'augmentation de la pénibilité au travail (troubles musculo-squelettiques,...). Les travaux de recherche présentés dans cette thèse sont une contribution à la robotisation des opérations de dé/palettisation pour des colis de taille variable qui exigent une grande polyvalence du système de préhension. La solution innovante que nous proposons consiste à utiliser un torse humanoïde équipé de deux bras manipulateurs munis de préhenseurs adaptés à la saisie d'objets de taille et de masse différentes. La principale contribution porte sur la conception d'une loi de commande hybride Force/Position-Position avec commutations, estimation du glissement de l'objet, prise en compte de la compliance et correction de la force de serrage pendant la manipulation. Cette solution suppose d'assurer la collaboration entre les deux bras manipulateurs et de s'adapter à l'environnement matériel et humain (cobotique)
In logistics warehouses, automation in the sense of robotization is frequently being employed to cut down production times by efficiently managing the processes of picking heavy loads, place, pack and palletize, while reducing the risks and errors to improve the working conditions of human operators along the way. The flexibility of human is fundamental for order preparation owing to adaptive skills for task variation, but at the same time increasing productivity is complemented with fatigue (musculoskeletal disorders). In this context the research presented in this thesis is a contribution in the robotization of palletization operations requiring exceptional versatility of manipulation and gripping. We have proposed an innovative solution of utilizing a humanoid torso equipped with two manipulator arms with adaptive grippers to grasp and hold the objects of variable size and mass. The main contribution of research is the development of a hybrid Force / Position-Position control law with commutation and estimation of the object surface slip, while taking into account the compliance and correction of the clamping force during handling. The execution of the control involves the collaboration of the two arms for coordinated manipulation and adaptation to the material and the human environment (cobotics)
APA, Harvard, Vancouver, ISO, and other styles
14

Padellini, Marc. "Optimisation d'un schéma de codage de la parole à très bas débit, par indexation d'unités de taille variable." Marne-la-Vallée, 2006. http://www.theses.fr/2006MARN0293.

Full text
Abstract:
Cette thèse a pour but d'étudier un schéma de codage à très bas débit, de l’ordre de 500 bit/s, s’appuyant sur des techniques de reconnaissance et de synthèse vocale. Elle s'inscrit dans la continuité des travaux menés à la fois au cours du projet RNRT SYMPATEX et de la thèse de Cernocky. L’encodeur effectue une reconnaissance d’unités élémentaires de parole à l’aide de modèles de Markov cachés. Le décodeur intègre une approche de synthèse par concaténation d'unités acoustiques. Ce schéma exploite un grand corpus de parole stocké dans le système et organisé en une base de synthèse. L’encodeur y recherche les unités qui représentent au mieux la parole, puis transmet leurs indices ainsi que des paramètres prosodiques. Le décodeur y extrait les unités à concaténer pour restituer la parole. Les problèmes traités au cours de cette thèse portent sur l'amélioration de la qualité générale du schéma de codage. Une approche de sélection dynamique des unités est proposée à cet effet. De plus, le fonctionnement du schéma a été étendu à des conditions réalistes d'utilisation. Ainsi, le schéma est étudié dans plusieurs environnements bruyants et une méthode d’adaptation au bruit est proposée. L’extension au mode indépendant du locuteur est réalisée par un apprentissage conjoint sur un grand nombre de locuteurs, associé à une classification hiérarchique des locuteurs permettant de constituer un jeu de bases de synthèse proche du locuteur à coder. Enfin, la complexité du schéma est analysée et une méthode de compression de la base de synthèse est proposée
This thesis aims at studying a speech coding scheme operating at a very low bit rate, around 500 bits/s, relying on speech recognition and speech synthesis techniques. It follows the work carried out by the RNRT project SYMPATEX and Cernocky’s [1] thesis. On one hand, elementary speech units are recognized by the coder, using Hidden Markov Models. On the other hand, a concatenative speech synthesis is used in the decoder. This system takes advantage of a large speech corpus stored in the system, and organized in a synthesis database. The encoder looks up in the corpus the units that best fit the speech to be encoded, then unit indexes and prosodic parameters are transmitted. The decoder retrieves in the database the units to be concatenated. This thesis deals with issues on the overall speech quality of the encoding scheme. A dynamic unit selection is proposed to this purpose. Furthermore, the scheme has been extended to operate under realistic conditions. Noisy environments have been studied, and a noise adaptation module was created. Extension to speaker independent mode is achieved by training the system on a large number of speakers, and using a hierarchic classification of speakers to create a set of synthesis databases which is close to the test speaker. Finally, complexity of the whole scheme is analyzed, and a method to compress the database is proposed
APA, Harvard, Vancouver, ISO, and other styles
15

Veganzones, David. "Corporate failure prediction models : contributions from a novel explanatory variable and imbalanced datasets approach." Thesis, Lille, 2018. http://www.theses.fr/2018LIL1A004.

Full text
Abstract:
Cette thèse explore de nouvelles approches pour développer des modèles de prédiction de la faillite. Elle contient alors trois nouveaux domaines d'intervention. La première est une nouvelle variable explicative basée sur la gestion des résultats. À cette fin, nous utilisons deux mesures (accruals et activités réelles) qui évaluent la manipulation potentielle des bénéfices. Nous avons mis en évidence que les modèles qui incluent cette nouvelle variable en combinaison avec des informations financières sont plus précis que ceux qui dépendent uniquement de données financières. La seconde analyse la capacité des modèles de faillite d'entreprise dans des ensembles de données déséquilibrés. Nous avons mis en relation les différents degrés de déséquilibre, la perte de performance et la capacité de récupération de performance, qui n'ont jamais été étudiés dans les modèles de prédiction de la faillite. Le troisième unifie les domaines précédents en évaluant la capacité de notre modèle de gestion des résultats proposé dans des ensembles de données déséquilibrés. Les recherches abordées dans cette thèse fournissent des contributions uniques et pertinentes à la littérature sur les finances d'entreprise, en particulier dans le domaine de la prédiction de la faillite
This dissertation explores novel approaches to develop corporate failure prediction models. This thesis then contains three new areas for intervention. The first is a novel explanatory variable based on earnings management. For this purpose, we use two measures (accruals and real activities) that assess potential earnings manipulation. We evidenced that models which include this novel variable in combination with financial information are more accurate than those relying only on financial data. The second analyzes the capacity of corporate failure models in imbalanced datasets. We put into relation the different degrees of imbalance, the loss on performance and the performance recovery capacity, which have never been studied in corporate failure. The third unifies the previous areas by evaluating the capacity of our proposed earnings management model in imbalanced datasets. Researches covered in this thesis provide unique and relevant contributions to corporate finance literature, especially to corporate failure domain
APA, Harvard, Vancouver, ISO, and other styles
16

Chen, Fengwei. "Contributions à l'identification de modèles à temps continu à partir de données échantillonnées à pas variable." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0149/document.

Full text
Abstract:
Cette thèse traite de l’identification de systèmes dynamiques à partir de données échantillonnées à pas variable. Ce type de données est souvent rencontré dans les domaines biomédical, environnemental, dans le cas des systèmes mécaniques où un échantillonnage angulaire est réalisé ou lorsque les données transitent sur un réseau. L’identification directe de modèles à temps continu est l’approche à privilégier lorsque les données disponibles sont échantillonnées à pas variable ; les paramètres des modèles à temps discret étant dépendants de la période d’échantillonnage. Dans une première partie, un estimateur optimal de type variable instrumentale est développé pour estimer les paramètres d’un modèle Box-Jenkins à temps continu. Ce dernier est itératif et présente l’avantage de fournir des estimées non biaisées lorsque le bruit de mesure est coloré et sa convergence est peu sensible au choix du vecteur de paramètres initial. Une difficulté majeure dans le cas où les données sont échantillonnées à pas variable concerne l’estimation de modèles de bruit de type AR et ARMA à temps continu (CAR et CARMA). Plusieurs estimateurs pour les modèles CAR et CARMA s’appuyant sur l’algorithme Espérance-Maximisation (EM) sont développés puis inclus dans l’estimateur complet de variable instrumentale optimale. Une version étendue au cas de l’identification en boucle fermée est également développée. Dans la deuxième partie de la thèse, un estimateur robuste pour l'identification de systèmes à retard est proposé. Cette classe de systèmes est très largement rencontrée en pratique et les méthodes disponibles ne peuvent pas traiter le cas de données échantillonnées à pas variable. Le retard n’est pas contraint à être un multiple de la période d’échantillonnage, contrairement à l’hypothèse traditionnelle dans le cas de modèles à temps discret. L’estimateur développé est de type bootstrap et combine la méthode de variable instrumentale itérative pour les paramètres de la fonction de transfert avec un algorithme numérique de type gradient pour estimer le retard. Un filtrage de type passe-bas est introduit pour élargir la région de convergence pour l’estimation du retard. Tous les estimateurs proposés sont inclus dans la boîte à outils logicielle CONTSID pour Matlab et sont évalués à l’aide de simulation de Monte-Carlo
The output of a system is always corrupted by additive noise, therefore it is more practical to develop estimation algorithms that are capable of handling noisy data. The effect of white additive noise has been widely studied, while a colored additive noise attracts less attention, especially for a continuous-time (CT) noise. Sampling issues of CT stochastic processes are reviewed in this thesis, several sampling schemes are presented. Estimation of a CT stochastic process is studied. An expectation-maximization-based (EM) method to CT autoregressive/autoregressive moving average model is developed, which gives accurate estimation over a large range of sampling interval. Estimation of CT Box-Jenkins models is also considered in this thesis, in which the noise part is modeled to improve the performance of plant model estimation. The proposed method for CT Box-Jenkins model identification is in a two-step and iterative framework. Two-step means the plant and noise models are estimated in a separate and alternate way, where in estimating each of them, the other is assumed to be fixed. More specifically, the plant is estimated by refined instrumental variable (RIV) method while the noise is estimated by EM algorithm. Iterative means that the proposed method repeats the estimation procedure several times until a optimal estimate is found. Many practical systems have inherent time-delay. The problem of identifying delayed systems are of great importance for analysis, prediction or control design. The presence of a unknown time-delay greatly complicates the parameter estimation problem, essentially because the model are not linear with respect to the time-delay. An approach to continuous-time model identification of time-delay systems, combining a numerical search algorithm for the delay with the RIV method for the dynamic has been developed in this thesis. In the proposed algorithm, the system parameters and time-delay are estimated reciprocally in a bootstrap manner. The time-delay is estimated by an adaptive gradient-based method, whereas the system parameters are estimated by the RIV method. Since numerical method is used in this algorithm, the bootstrap method is likely to converge to local optima, therefore a low-pass filter has been used to enlarge the convergence region for the time-delay. The performance of the proposed algorithms are evaluated by numerical examples
APA, Harvard, Vancouver, ISO, and other styles
17

Traoré, Abraham. "Contribution à la décomposition de données multimodales avec des applications en apprentisage de dictionnaires et la décomposition de tenseurs de grande taille." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMR068/document.

Full text
Abstract:
Dans ce travail, on s'intéresse à des outils mathématiques spéciaux appelés tenseurs qui sont formellement définis comme des tableaux multidimensionnels définis sur le produit tensoriel d'espaces vectoriels (chaque espace vectoriel étant muni de son système de coordonnées), le nombre d'espaces vectoriels impliqués dans ce produit étant l'ordre du tenseur. L'intérêt pour les tenseurs est motivé par certains travaux expérimentaux qui ont prouvé, dans divers contextes, que traiter des données multidimensionnelles avec des tenseurs plutôt que des matrices donne un meilleur résultat aussi bien pour des tâches de régression que de classification. Dans le cadre de la thèse, nous nous sommes focalisés sur une décomposition dite de Tucker et avons mis en place une méthode pour l'apprentissage de dictionnaires, une technique pour l'apprentissage en ligne de dictionnaires, une approche pour la décomposition d'un tenseur de grandes tailles et enfin une méthodologie pour la décomposition d'un tenseur qui croît par rapport à tous les modes. De nouveaux résultats théoriques concernant la convergence et la vitesse de convergence sont établis et l'efficacité des algorithmes proposés, reposant soit sur la minimisation alternée, soit sur la descente de gradients par coordonnées, est démontrée sur des problèmes réels
In this work, we are interested in special mathematical tools called tensors, that are multidimensional arrays defined on tensor product of some vector spaces, each of which has its own coordinate system and the number of spaces involved in this product is generally referred to as order. The interest for these tools stem from some empirical works (for a range of applications encompassing both classification and regression) that prove the superiority of tensor processing with respect to matrix decomposition techniques. In this thesis framework, we focused on specific tensor model named Tucker and established new approaches for miscellaneous tasks such as dictionary learning, online dictionary learning, large-scale processing as well as the decomposition of a tensor evolving with respect to each of its modes. New theoretical results are established and the efficiency of the different algorithms, which are based either on alternate minimization or coordinate gradient descent, is proven via real-world problems
APA, Harvard, Vancouver, ISO, and other styles
18

Pastorelli, Mario. "Disciplines basées sur la taille pour la planification des jobs dans data-intensif scalable computing systems." Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0048.

Full text
Abstract:
La dernière décennie a vu l’émergence de systèmes parallèles pour l’analyse de grosse quantités de données (DISC) , tels que Hadoop, et la demande qui en résulte pour les politiques de gestion des ressources, pouvant fournir des temps de réponse rapides ainsi qu’équité. Actuellement, les schedulers pour les systèmes de DISC sont axées sur l’équité, sans optimiser les temps de réponse. Les meilleures pratiques pour surmonter ce problème comprennent une intervention manuelle et une politique de planification ad-hoc , qui est sujette aux erreurs et qui est difficile à adapter aux changements. Dans cette thèse, nous nous concentrons sur la planification basée sur la taille pour les systèmes DISC. La principale contribution de ce travail est le scheduler dit Hadoop Fair Sojourn Protocol (HFSP), un ordonnanceur préemptif basé sur la taille qui tient en considération le vieillissement, ayant comme objectifs de fournir l’équité et des temps de réponse réduits. Hélas, dans les systèmes DISC, les tailles des job d’analyse de données ne sont pas connus a priori, donc, HFSP comprends un module d’estimation de taille, qui calcule une approximation et qui affine cette estimation au fur et a mesure du progrès d’un job. Nous démontrons que l’impact des erreurs d’estimation sur les politiques fondées sur la taille n’est pas significatif. Pour cette raison, et en vertu d’être conçu autour de l’idée de travailler avec des tailles estimées, HFSP est tolérant aux erreurs d’estimation de la taille des jobs. Nos résultats expérimentaux démontrent que, dans un véritable déploiement Hadoop avec des charges de travail réalistes, HFSP est plus performant que les politiques de scheduling existantes, a la fois en terme de temps de réponse et d’équité. En outre, HFSP maintiens ses bonnes performances même lorsque le cluster de calcul est lourdement chargé, car il focalises les ressources sur des jobs ayant priorité. HFSP est une politique préventive: la préemption dans un système DISC peut être mis en œuvre avec des techniques différentes. Les approches actuellement disponibles dans Hadoop ont des lacunes qui ont une incidence sur les performances du système. Par conséquence, nous avons mis en œuvre une nouvelle technique de préemption, appelé suspension, qui exploite le système d’exploitation pour effectuer la préemption d’une manière qui garantie une faible latence sans pénaliser l’avancement des jobs a faible priorité
The past decade have seen the rise of data-intensive scalable computing (DISC) systems, such as Hadoop, and the consequent demand for scheduling policies to manage their resources, so that they can provide quick response times as well as fairness. Schedulers for DISC systems are usually focused on the fairness, without optimizing the response times. The best practices to overcome this problem include a manual and ad-hoc control of the scheduling policy, which is error-prone and difficult to adapt to changes. In this thesis we focus on size-based scheduling for DISC systems. The main contribution of this work is the Hadoop Fair Sojourn Protocol (HFSP) scheduler, a size-based preemptive scheduler with aging; it provides fairness and achieves reduced response times thanks to its size-based nature. In DISC systems, job sizes are not known a-priori: therefore, HFSP includes a job size estimation module, which computes approximated job sizes and refines these estimations as jobs progress. We show that the impact of estimation errors on the size-based policies is not signifi- cant, under conditions which are verified in a system such as Hadoop. Because of this, and by virtue of being designed around the idea of working with estimated sizes, HFSP is largely tolerant to job size estimation errors. Our experimental results show that, in a real Hadoop deployment and with realistic workloads, HFSP performs better than the built-in scheduling policies, achieving both fairness and small mean response time. Moreover, HFSP maintains its good performance even when the cluster is heavily loaded, by focusing the resources to few selected jobs with the smallest size. HFSP is a preemptive policy: preemption in a DISC system can be implemented with different techniques. Approaches currently available in Hadoop have shortcomings that impact on the system performance. Therefore, we have implemented a new preemption technique, called suspension, that exploits the operating system primitives to implement preemption in a way that guarantees low latency without penalizing low-priority jobs
APA, Harvard, Vancouver, ISO, and other styles
19

Pannetier, Benjamin. "Fusion de données pour la surveillance du champ de bataille." Phd thesis, Université Joseph Fourier (Grenoble), 2006. http://tel.archives-ouvertes.fr/tel-00377247.

Full text
Abstract:
Dans le domaine de la surveiIlance du champ de bataille, la poursuite de cibles terrestres est un point crucial pour évaluer le comportement des forces présentent sur le théâtre des opérations. Cette poursuite peut être menée à partir des capteurs aéroportés GMTI (Ground Moving Target Indicator) qui détectent tous les objets en mouvement. Toutefois, les techniques classiques de trajectographie ne permettent pas d'établir une situation fiable de la scène. Cependant, avec le développement et la fiabilité des systèmes d'information géographique, il devient possible de fusionner les données GMTI avec toute l'information contextuelJe pour améliorer le pistage. Le travail présenté dans cette thèse s'intéresse à l'intégration de l'information cartographique dans les techniques usueIJes de trajectographie. Le réseau routier est alors considéré comme une contrainte et un algorithme IMM à structure variable, pour s'adapter à la topologie du réseau, est présenté et testé sur données simulées. L'algorithme prend en entrée la position des plots MTI mais aussi la vitesse radiale des plots. Lorsque cette dernière est éloignée statistiquement de la vitesse radiale prédite, le système risque de ne pas associer le plot à la piste et de perdre cette dernière. Dans ce cas, un facteur d'oubli momentané est utilisé afin d'éviter la perte de la piste. De plus, la problématique des entrées et sorties de route pour le pi stage d'objets d'intérêts est traitée en activant ou désactivant les modèles dynamiques sous contraintes. Par ailleurs, nous proposons une approche pour considérer l'information négative (i.e. absence de détection) suivant la nature du terrain et améliorer la continuité du pi stage
APA, Harvard, Vancouver, ISO, and other styles
20

Ette, Théodore-Emien. "Modèle général de classes et modèle de partitions pour le découpage d'une variable unique : Deuxième partie : application des méthodes de l'analyse des données aux statistiques du marché mondial du cacao et du café." Paris 6, 1992. http://www.theses.fr/1992PA066657.

Full text
Abstract:
Premiere partie: partant d'un modele general de decoupages en classes d'une variable continue unique, sous-jacente a un questionnaire continu, il s'agit de lui associer un modele de partitions construit a partir seulement d'une loi donnee. Le probleme admet en general des multiples solutions. Il s'agit d'en construire une, qu'on peut appeler doublement markovienne. Pour ce faire, nous partons de la notion de chaines, de partitions de chaines, de poids de chaines et de partitions. Seulement, dans le cas du modele general, c'est-a-dire dans le cas continu, on ne peut plus parler du poids d'une chaine individuelle; on doit par consequent introduire directement une distribution de masses sur les ensembles de chaines de degres croissants. Enfin, a l'aide des notions de transition et d'ordre lateral et autres resultats de l'analyse des donnees, on acheve la construction du modele de partitions souhaite. Nous assurons ce modele en demontrant la convergence du processus. Deuxieme partie: nous appliquons les methodes de l'analyse des donnees, notamment l'analyse factorielle des correspondances, l'analyse discriminante barycentrique, la classification ascendante hierarchique pour etudier les statistiques mondiales du cacao et du cafe
APA, Harvard, Vancouver, ISO, and other styles
21

Lange, Benoît. "Visualisation interactive de données hétérogènes pour l'amélioration des dépenses énergétiques du bâtiment." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20172/document.

Full text
Abstract:
De nos jours, l'économie d'énergie est devenue un enjeu crucial. Les bâtiments des différents pays ont été identifiés comme étant une source importante de perte énergétique. De ce constat a émergé le projet RIDER (Reasearch for IT Driven EneRgy efficiency). Ce projet a pour objectif de développer un système d'information innovant permettant d'optimiser la consommation énergétique d'un bâtiment ou d'un groupe de bâtiments. Ce système est basé sur des composants logiciels, notamment une solution générale de modélisation du bâtiment, une solution de fouille de données, une solution de visualisation. Chacun de ces composants est destiné à améliorer le modèle de données de RIDER. Dans ce manuscrit, nous nous intéressons à la partie visualisation et nous proposons donc une solution d'amélioration du modèle par cette méthode. Dans ces travaux, nous allons présenter les solutions que nous avons mises en place pour modéliser le bâtiment ; pour ce faire nous avons utilisé une solution à base de particules dont la valeur est interpolée par rapport aux différents capteurs du bâtiment. Nous présentons également les différentes solutions mises en place pour visualiser les données et les méthodes d'interactions pour améliorer le modèle du bâtiment. Enfin, notre dernière partie présente les résultats de notre solution au travers de deux jeux de données
Energy efficiencies are became a major issue. Building from any country have been identified as gap of energy, building are not enough insulated and energy loss by this struc- ture represent a major part of energy expenditure. RIDER has emerged from this viewpoint, RIDER for Research for IT Driven EneRgy efficiency. This project has goal to develop a new kind of IT system to optimize energy consumption of buildings. This system is based on a component paradigm, which is composed by a pivot model, a data warehouse with a data mining approach and a visualization tool. These two last components are developed to improve content of pivot model.In this manuscript, our focus was on the visualization part of the project. This manuscript is composed in two parts: state of the arts and contributions. Basic notions, a visualization chapter and a visual analytics chapter compose the state of the art. In the contribution part, we present data model used in this project, visualization proposed and we conclude with two experimentations on real data
APA, Harvard, Vancouver, ISO, and other styles
22

Tandeo, Pierre. "MODÉLISATION SPATIO-TEMPORELLE D'UNE VARIABLE QUANTITATIVE À PARTIR DE DONNÉES MULTI-SOURCES APPLICATION À LA TEMPÉRATURE DE SURFACE DES OCÉANS." Phd thesis, Agrocampus - Ecole nationale supérieure d'agronomie de rennes, 2010. http://tel.archives-ouvertes.fr/tel-00582679.

Full text
Abstract:
Ce travail de thèse porte sur une variable océanographique importante dans le suivi du climat : la température de surface des océans. Au niveau global, les observations de cette température sont fournies principalement par des radiomètres embarqués sur des satellites. Afin de traiter ce flux important de données, un traitement statistique s'impose dans le but de synthétiser l'information en des cartes globales et quotidiennes de notre variable d'intérêt. Pour ce faire, nous proposons un modèle linéaire de type espace-d'état avec des erreurs Gaussiennes. Nous commençons par présenter ce modèle sur des données issues de séries temporelles ayant un échantillonnage irrégulier. Suit un travail d'inférence avec la mise en place d'un schéma d'estimation des paramètres, basé sur la combinaison d'une méthode des moments et du maximum de vraisemblance au travers de l'algorithme EM et des probabilités de filtrage et lissage de Kalman. Nous appliquons enfin cette méthodologie pour estimer les variances d'erreurs et le paramètre de corrélation temporelle à tout l'océan Atlantique. Nous ajoutons ensuite la composante spatiale et proposons une structure d'ordre deux, séparable, basée sur le produit d'une covariance temporelle et d'une covariance spatiale ani- sotrope. Les paramètres de cette dernière sont estimés sur l'océan Atlantique à partir de techniques géostatistiques usuelles et forment un atlas pertinent pour les océanographes. Fi- nalement, nous montrons que l'apport de l'information spatiale augmente le pouvoir prédictif du modèle.
APA, Harvard, Vancouver, ISO, and other styles
23

Tandeo, Pierre. "Modélisation spatio-temporelle d’une variable quantitative à partir de données multi-sources : Application à la température de surface des océans." Rennes, Agrocampus Ouest, 2010. https://tel.archives-ouvertes.fr/tel-00582679.

Full text
Abstract:
Ce travail de thèse porte sur une variable océanographique importante dans le suivi du climat : la température de surface des océans. Au niveau global, les observations de cette température sont fournies principalement par des radiomètres embarqués sur des satellites. Afin de traiter ce flux important de données, un traitement statistique s’impose dans le but de synthétiser l’information en des cartes globales et quotidiennes de notre variable d’intérêt. Pour ce faire, nous proposons un modèle linéaire de type espace-d’état avec des erreurs Gaussiennes. Nous commençons par présenter ce modèle sur des données issues de séries temporelles ayant un échantillonnage irrégulier. Suit un travail d’inférence avec la mise en place d’un schéma d’estimation des paramètres, basé sur la combinaison d’une méthode des moments et du maximum de vraisemblance au travers de l’algorithme EM et des probabilités de filtrage et lissage de Kalman. Nous appliquons enfin cette méthodologie pour estimer les variances d’erreurs et le paramètre de corrélation temporelle à tout l’océan Atlantique. Nous ajoutons ensuite la composante spatiale et proposons une structure d’ordre deux, séparable, basée sur le produit d’une covariance temporelle et d’une covariance spatiale anisotrope. Les paramètres de cette dernière sont estimés sur l’océan Atlantique à partir de techniques géostatistiques usuelles et forment un atlas pertinent pour les océanographes. Finalement, nous montrons que l’apport de l’information spatiale augmente le pouvoir prédictif du modèle
In this thesis, an important oceanographic variable for the monitoring of the climate is studied: the sea surface temperature. At the global level, this variable is observed along the ocean by several remote sensed sources. In order to treat all this information, statistical methods are used to summarize our variable of interest in global daily map. For that purpose, a state-space linear model with Gaussian error is suggested. We begin to introduce this model on data resulting from having an irregular sampling. Then, we work on the estimation of the parameters. This is based on the combination of the method of moments and the maximum likelihood estimates, with the study of the EM algorithm and the Kalman recursions. Finally, this methodology is applied to estimate the variance of errors and the temporal correlation parameter to the Atlantic ocean. We add the spatial component and propose a separable second order structure, based on the product of a temporal covariance and a spatial anisotropic covariance. According to usual geostatistical methods, the parameters of this covariance are estimated on the Atlantic ocean and form a relevant atlas for the oceanographers. Finally, we show that the contribution of the spatial information increases the predictive behaviour of the model
APA, Harvard, Vancouver, ISO, and other styles
24

El, Assaad Hani. "Modélisation et classification dynamique de données temporelles non stationnaires." Thesis, Paris Est, 2014. http://www.theses.fr/2014PEST1162/document.

Full text
Abstract:
Cette thèse aborde la problématique de la classification non supervisée de données lorsque les caractéristiques des classes sont susceptibles d'évoluer au cours du temps. On parlera également, dans ce cas, de classification dynamique de données temporelles non stationnaires. Le cadre applicatif des travaux concerne le diagnostic par reconnaissance des formes de systèmes complexes dynamiques dont les classes de fonctionnement peuvent, suite à des phénomènes d'usures, des déréglages progressifs ou des contextes d'exploitation variables, évoluer au cours du temps. Un modèle probabiliste dynamique, fondé à la fois sur les mélanges de lois et sur les modèles dynamiques à espace d'état, a ainsi été proposé. Compte tenu de la structure complexe de ce modèle, une variante variationnelle de l'algorithme EM a été proposée pour l'apprentissage de ses paramètres. Dans la perspective du traitement rapide de flux de données, une version séquentielle de cet algorithme a également été développée, ainsi qu'une stratégie de choix dynamique du nombre de classes. Une série d'expérimentations menées sur des données simulées et des données réelles acquises sur le système d'aiguillage des trains a permis d'évaluer le potentiel des approches proposées
Nowadays, diagnosis and monitoring for predictive maintenance of railway components are important key subjects for both operators and manufacturers. They seek to anticipate upcoming maintenance actions, reduce maintenance costs and increase the availability of rail network. In order to maintain the components at a satisfactory level of operation, the implementation of reliable diagnostic strategy is required. In this thesis, we are interested in a main component of railway infrastructure, the railway switch; an important safety device whose failure could heavily impact the availability of the transportation system. The diagnosis of this system is therefore essential and can be done by exploiting sequential measurements acquired successively while the state of the system is evolving over time. These measurements consist of power consumption curves that are acquired during several switch operations. The shape of these curves is indicative of the operating state of the system. The aim is to track the temporal dynamic evolution of railway component state under different operating contexts by analyzing the specific data in order to detect and diagnose problems that may lead to functioning failure. This thesis tackles the problem of temporal data clustering within a broader context of developing innovative tools and decision-aid methods. We propose a new dynamic probabilistic approach within a temporal data clustering framework. This approach is based on both Gaussian mixture models and state-space models. The main challenge facing this work is the estimation of model parameters associated with this approach because of its complex structure. In order to meet this challenge, a variational approach has been developed. The results obtained on both synthetic and real data highlight the advantage of the proposed algorithms compared to other state of the art methods in terms of clustering and estimation accuracy
APA, Harvard, Vancouver, ISO, and other styles
25

Pastorelli, Mario. "Disciplines basées sur la taille pour la planification des jobs dans data-intensif scalable computing systems." Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0048/document.

Full text
Abstract:
La dernière décennie a vu l’émergence de systèmes parallèles pour l’analyse de grosse quantités de données (DISC) , tels que Hadoop, et la demande qui en résulte pour les politiques de gestion des ressources, pouvant fournir des temps de réponse rapides ainsi qu’équité. Actuellement, les schedulers pour les systèmes de DISC sont axées sur l’équité, sans optimiser les temps de réponse. Les meilleures pratiques pour surmonter ce problème comprennent une intervention manuelle et une politique de planification ad-hoc , qui est sujette aux erreurs et qui est difficile à adapter aux changements. Dans cette thèse, nous nous concentrons sur la planification basée sur la taille pour les systèmes DISC. La principale contribution de ce travail est le scheduler dit Hadoop Fair Sojourn Protocol (HFSP), un ordonnanceur préemptif basé sur la taille qui tient en considération le vieillissement, ayant comme objectifs de fournir l’équité et des temps de réponse réduits. Hélas, dans les systèmes DISC, les tailles des job d’analyse de données ne sont pas connus a priori, donc, HFSP comprends un module d’estimation de taille, qui calcule une approximation et qui affine cette estimation au fur et a mesure du progrès d’un job. Nous démontrons que l’impact des erreurs d’estimation sur les politiques fondées sur la taille n’est pas significatif. Pour cette raison, et en vertu d’être conçu autour de l’idée de travailler avec des tailles estimées, HFSP est tolérant aux erreurs d’estimation de la taille des jobs. Nos résultats expérimentaux démontrent que, dans un véritable déploiement Hadoop avec des charges de travail réalistes, HFSP est plus performant que les politiques de scheduling existantes, a la fois en terme de temps de réponse et d’équité. En outre, HFSP maintiens ses bonnes performances même lorsque le cluster de calcul est lourdement chargé, car il focalises les ressources sur des jobs ayant priorité. HFSP est une politique préventive: la préemption dans un système DISC peut être mis en œuvre avec des techniques différentes. Les approches actuellement disponibles dans Hadoop ont des lacunes qui ont une incidence sur les performances du système. Par conséquence, nous avons mis en œuvre une nouvelle technique de préemption, appelé suspension, qui exploite le système d’exploitation pour effectuer la préemption d’une manière qui garantie une faible latence sans pénaliser l’avancement des jobs a faible priorité
The past decade have seen the rise of data-intensive scalable computing (DISC) systems, such as Hadoop, and the consequent demand for scheduling policies to manage their resources, so that they can provide quick response times as well as fairness. Schedulers for DISC systems are usually focused on the fairness, without optimizing the response times. The best practices to overcome this problem include a manual and ad-hoc control of the scheduling policy, which is error-prone and difficult to adapt to changes. In this thesis we focus on size-based scheduling for DISC systems. The main contribution of this work is the Hadoop Fair Sojourn Protocol (HFSP) scheduler, a size-based preemptive scheduler with aging; it provides fairness and achieves reduced response times thanks to its size-based nature. In DISC systems, job sizes are not known a-priori: therefore, HFSP includes a job size estimation module, which computes approximated job sizes and refines these estimations as jobs progress. We show that the impact of estimation errors on the size-based policies is not signifi- cant, under conditions which are verified in a system such as Hadoop. Because of this, and by virtue of being designed around the idea of working with estimated sizes, HFSP is largely tolerant to job size estimation errors. Our experimental results show that, in a real Hadoop deployment and with realistic workloads, HFSP performs better than the built-in scheduling policies, achieving both fairness and small mean response time. Moreover, HFSP maintains its good performance even when the cluster is heavily loaded, by focusing the resources to few selected jobs with the smallest size. HFSP is a preemptive policy: preemption in a DISC system can be implemented with different techniques. Approaches currently available in Hadoop have shortcomings that impact on the system performance. Therefore, we have implemented a new preemption technique, called suspension, that exploits the operating system primitives to implement preemption in a way that guarantees low latency without penalizing low-priority jobs
APA, Harvard, Vancouver, ISO, and other styles
26

Schramm, Catherine. "Intégration des facteurs prédictifs de l'effet d'un traitement dans la conception et l'analyse des essais cliniques de petite taille : application à la maladie de Huntington." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066610/document.

Full text
Abstract:
La maladie de Huntington est neurodégénérative, génétique, rare, multifacette et de durée d'évolution longue, induisant une grande. Les biothérapies en cours d'essai sont réalisées sur des petits effectifs, avec un effet mesurable à long terme et hétérogène. Identifier des marqueurs d'évolution de la maladie et de réponse au traitement permettrait de mieux comprendre et d'améliorer les résultats des futurs essais cliniques. Nous avons développé une méthode de clustering pour l'efficacité d'un traitement dans le cadre de données longitudinales afin de définir des répondeurs et non répondeurs au traitement. Notre méthode, robuste pour les petits effectifs, combine un modèle linéaire mixte à deux pentes et un algorithme de clustering. Le modèle mixte génère des effets aléatoires, associés à la réponse au traitement, propres à chaque patient. L'algorithme de clustering permet de définir des sous-groupes selon la valeur des effets aléatoires. Trouver des sous-groupes de patients répondeurs permet de définir des marqueurs prédictifs de la réponse au traitement qui seront utilisés pour donner le traitement le mieux adapté à chaque patient. Nous avons discuté de l'intégration (i) des marqueurs prédictifs dans les plans expérimentaux des essais cliniques, en évaluant leur impact sur la puissance de l'étude; et (ii) des marqueurs pronostiques, en étudiant l¿impact du polymorphisme COMT sur le déclin cognitif des patients. Enfin, nous avons évalué l'effet d'apprentissage des tests neuropsychologiques, et montré comment une double évaluation à l'inclusion dans un essai clinique permettait de s'en affranchir quand le critère de jugement principal est le déclin cognitif
Huntington's disease is neurodegenerative, genetic, rare, multifaceted and has a long evolution, inducing heterogeneity of conditions and progression of the disease. Current biotherapy trials are performed on small samples of patients, with a treatment effect measurable in the long-term that is heterogeneous. Identifying markers of the disease progression and of the treatment response may help to better understand and improve results of biotherapy studies in Huntington's disease. We have developed a clustering method for the treatment efficacy in the case of longitudinal data in order to identify treatment responders and nonresponders. Our method combines a linear mixed model with two slopes and a classical clustering algorithm. The mixed model generates random effects associated with treatment response, specific to each patient. The clustering algorithm is used to define subgroups according to the value of the random effects. Our method is robust in case of small samples. Finding subgroups of responders may help to define predictive markers of treatment response which will be used to give the most appropriate treatment for each patient. We discussed integration of (i) the predictive markers in study design of future clinical trials, assessing their impact on the power of the study; and (ii) the prognostic markers of disease progression by studying the COMT polymorphism as a prognostic marker of cognitive decline in Huntington's disease. Finally, we evaluated the learning effect of neuropsychological tasks measuring cognitive abilities, and showed how a double baseline in a clinical trial could take it into account when the primary outcome is the cognitive decline
APA, Harvard, Vancouver, ISO, and other styles
27

Linardi, Michele. "Variable-length similarity search for very large data series : subsequence matching, motif and discord detection." Electronic Thesis or Diss., Sorbonne Paris Cité, 2019. http://www.theses.fr/2019USPCB056.

Full text
Abstract:
Les séries de données ou série chronologique (suite de valeurs numériques représentant l’évolution d’une quantité) sont devenues l’un des types de données les plus importants et les plus populaires, omniprésents dans presque tous les domaines scientifiques. Au cours des deux dernières décennies, mais de manière encore plus évidente au cours de cette dernière période, l’intérêt porté à ce type de données s’accroît rapidement. La raison en est principalement due aux récents progrès des technologies de détection, de mise en réseau, de traitement de données et de stockage, qui ont considérablement aidé le processus de génération et de collecte de grandes quantités de séries de données. La recherche de similarité de séries de données est devenue une opération fondamentale au cœur de plusieurs algorithmes d’analyse et applications liées aux collections de séries de données. De nombreuses solutions à différents problèmes d’exploration de données, telles que le regroupement (clustering), la mise en correspondance des sous-séquences (subsequence matching), l’imputation des valeurs manquantes (imputation of missing values), la découverte de motifs (motif discovery) et la détection d’anomalies (discord discovery) sont basés sur l’utilisation de la recherche de similarité. À cet égard, toutes les solutions sur mesure pour les problèmes susmentionnés nécessitent la connaissance préalable de la longueur de la série, sur laquelle une recherche de similarité est effectuée. Dans ce scénario, l’utilisateur doit connaître la longueur des résultats attendus, ce qui est souvent une hypothèse irréaliste. Cet aspect est donc très important. Dans plusieurs cas, la longueur est un paramètre critique qui influence sensiblement la qualité du résultat final. En détail, nous avons noté que les index de séries de données permettent d’effectuer une recherche de similarité rapide. Néanmoins, tous les index existants ne peuvent répondre qu’aux requêtes d’une seule longueur (fixées au moment de la construction de l’index), ce qui constitue une limite sévère. Dans cette thèse, nous proposons d’abord ULISSE, le premier index de série de données conçue pour répondre aux requêtes de recherche de similarité de longueur variable. Notre contribution est double. Premièrement, nous introduisons une nouvelle technique de représentation, qui résume efficacement et succinctement plusieurs séquences de différentes longueurs. Sur la base de l’index proposé, nous décrivons des algorithmes efficaces pour la recherche de similarité approximative et exacte, combinant des visites d’index sur disque et des analyses séquentielles en mémoire. Notre approche prend en charge les séquences non normalisées et normalisées, et peut être utilisée sans modification avec la distance Euclidienne et la déformation temporelle dynamique (DTW), pour répondre aux requêtes de type : κ-NN et ε-range. Nous évaluons notre approche de manière expérimentale en utilisant plusieurs jeux de données synthétiques et réels. Les résultats montrent que ULISSE s’est révélé de nombreuse fois plus efficace en termes de coût d’espace et de temps, par rapport aux approches concurrentes. Par la suite, nous introduisons un nouveau framework, qui fournit un algorithme de recherche exacte de motifs (séquences fréquentes) et d’anomalies, qui trouve efficacement tous les motifs et les anomalies de tailles différentes. L’évaluation expérimentale que nous avons effectuée sur plusieurs ensembles de données réelles montre que nos approches sont jusqu’à des ordres de grandeur plus rapides que les alternatives. Nous démontrons en outre que nous pouvons supprimer la contrainte irréaliste d’effectuer des analyses en utilisant une longueur prédéfinie, ce qui conduit à des résultats plus intuitifs et exploitables, qui auraient autrement été manqués
Data series (ordered sequences of real valued points, a.k.a. time series) has become one of the most important and popular data-type, which is present in almost all scientific fields. For the last two decades, but more evidently in this last period the interest in this data-type is growing at a fast pace. The reason behind this is mainly due to the recent advances in sensing, networking, data processing and storage technologies, which have significantly assisted the process of generating and collecting large amounts of data series. Data series similarity search has emerged as a fundamental operation at the core of several analysis tasks and applications related to data series collections. Many solutions to different data mining problems, such as Clustering, Subsequence Matching, Imputation of Missing Values, Motif Discovery, and Anomaly detection work by means of similarity search. Data series indexes have been proposed for fast similarity search. Nevertheless all existing indexes can only answer queries of a single length (fixed at index construction time), which is a severe limitation. In this regard, all solutions for the aforementioned problems require the prior knowledge of the series length, on which similarity search is performed. Consequently, the user must know the length of the expected results, which is often an unrealistic assumption. This aspect is thus of paramount importance. In several cases, the length is a critical parameter that heavily influences the quality of the final outcome. In this thesis, we propose scalable solutions that enable variable-length analysis of very large data series collections. We propose ULISSE, the first data series index structure designed for answering similarity search queries of variable length. Our contribution is two-fold. First, we introduce a novel representation technique, which effectively and succinctly summarizes multiple sequences of different length. Based on the proposed index, we describe efficient algorithms for approximate and exact similarity search, combining disk based index visits and in-memory sequential scans. Our approach supports non Z-normalized and Z-normalized sequences, and can be used with no changes with both Euclidean Distance and Dynamic Time Warping, for answering both κ-NN and ε-range queries. We experimentally evaluate our approach using several synthetic and real datasets. The results show that ULISSE is several times, and up to orders of magnitude more efficient in terms of both space and time cost, when compared to competing approaches. Subsequently, we introduce a new framework, which provides an exact and scalable motif and discord discovery algorithm that efficiently finds all motifs and discords in a given range of lengths. The experimental evaluation we conducted over several diverse real datasets show that our approaches are up to orders of magnitude faster than the alternatives. We moreover demonstrate that we can remove the unrealistic constraint of performing analytics using a predefined length, leading to more intuitive and actionable results, which would have otherwise been missed
APA, Harvard, Vancouver, ISO, and other styles
28

Peyhardi, Jean. "Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2013. http://tel.archives-ouvertes.fr/tel-00936845.

Full text
Abstract:
Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers.
APA, Harvard, Vancouver, ISO, and other styles
29

Senga, Kiessé Tristan. "Approche non-paramétrique par noyaux associés discrets des données de dénombrement." Phd thesis, Université de Pau et des Pays de l'Adour, 2008. http://tel.archives-ouvertes.fr/tel-00372180.

Full text
Abstract:
Nous introduisons une nouvelle approche non-paramétrique, par noyaux associés discrets, pour les données de dénombrement. Pour cela, nous définissons la notion de noyaux associés discrets à partir d'une loi de probabilité discrète donnée et nous étudions leurs propriétés. De là, nous construisons l'estimateur à noyau discret lequel est l'analogue de certains estimateurs à noyau continu de cette dernière décennie. Nous examinons ses propriétés fondamentales ; en particulier, nous montrons la convergence ponctuelle en moyenne quadratique de l'estimateur. Le choix de fenêtre du lissage discret s'effectue essentiellement par validation croisée et excès de zéros. Nous étudions également le comportement des lois classiques de dénombrement comme noyau associé, par exemple, Poisson, binomiale et binomiale négative. Ainsi, il s'est révélé nécessaire de construire une nouvelle famille de lois discrètes dites triangulaires pour servir de noyaux associés symétriques. Cette méthode des noyaux associés discrets est utilisée dans l'estimation semi-paramétrique des distributions de données de dénombrement, ainsi que pour la régression non-paramétrique sur une variable explicative de dénombrement. Tout au long de ce travail, nous illustrons les résultats à travers des simulations et des jeux de données réelles. Dans le cas d'échantillons de tailles petites et modérées, l'importance et les très bonnes performances des noyaux associés discrets sont mises en évidence, en comparaison avec le noyau du type Dirac et parfois les noyaux continus.
APA, Harvard, Vancouver, ISO, and other styles
30

Brunet, Anne-Claire. "Développement d'outils statistiques pour l'analyse de données transcriptomiques par les réseaux de co-expression de gènes." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30373/document.

Full text
Abstract:
Les nouvelles biotechnologies offrent aujourd'hui la possibilité de récolter une très grande variété et quantité de données biologiques (génomique, protéomique, métagénomique...), ouvrant ainsi de nouvelles perspectives de recherche pour la compréhension des processus biologiques. Dans cette thèse, nous nous sommes plus spécifiquement intéressés aux données transcriptomiques, celles-ci caractérisant l'activité ou le niveau d'expression de plusieurs dizaines de milliers de gènes dans une cellule donnée. L'objectif était alors de proposer des outils statistiques adaptés pour analyser ce type de données qui pose des problèmes de "grande dimension" (n<
Today's, new biotechnologies offer the opportunity to collect a large variety and volume of biological data (genomic, proteomic, metagenomic...), thus opening up new avenues for research into biological processes. In this thesis, what we are specifically interested is the transcriptomic data indicative of the activity or expression level of several thousands of genes in a given cell. The aim of this thesis was to propose proper statistical tools to analyse these high dimensional data (n<
APA, Harvard, Vancouver, ISO, and other styles
31

Silio, Calzada Ana. "Estimation de la production primaire nouvelle dans les zones d'upwelling à partir de données satellitaires multi-capteurs : application au système du Benguela, et étude de sa variabilité saisonnière et interannuelle." Paris 6, 2008. http://www.theses.fr/2008PA066367.

Full text
Abstract:
La production primaire nouvelle, qui est définie comme la fraction de la production primaire correspondant à l’assimilation des nitrates importés dans la couche euphotique (Dugdale et Goering 1967), est considérée, pour un système à l’équilibre, comme un indicateur du flux de matière organique transporté vers l'océan profond. Il en résulte que les variations spatiales et temporelles de la production primaire nouvelle ont une importance cruciale pour l'étude des flux biogéochimiques dans l'océan ; cependant, elles restent à ce jour peu documentées. Le sujet principal de cette thèse est l'estimation de la production primaire nouvelle dans les régions d’upwelling à partir de données satellitales multi-capteurs (MERIS, SeaWIFS, AATSR, AVHRR-Pathfinder). A partir du modèle de production nouvelle développé par Dugdale et al. (1989), et adapté par Kudela et Dugdale (1996), nous proposons une nouvelle version qui présente deux améliorations principales : 1) une nouvelle approche pour l'estimation des concentrations de nitrates en surface, spécifiquement développée pour les régions d’upwelling, et qui relie la concentration en nitrates à un indicateur du temps écoulé depuis la remontée des eaux profondes ; 2) l'estimation des taux d’assimilation de nitrates, qui tient compte de la structure de taille de la communauté phytoplanctonique (estimée pour chaque pixel en utilisant la méthode de Uitz et al. (2006)), et est basée sur des paramètres physiologiques appropriés pour chaque classe de taille. Bien que le microphytoplancton soit généralement considéré comme responsable de la production nouvelle, nos résultats montrent que la contribution des petites cellules ne peut pas être négligée. Le deuxième objectif de cette thèse est l'analyse de la variabilité saisonnière et interannuelle, sur quatre années (2003-2006), de la production primaire nouvelle (y compris les contributions respectives des trois classes de taille), et du rapport f (production nouvelle / production totale) dans le système d’upwelling du Benguela. Le rôle des forçages physiques a également été étudié par l'analyse d'une série temporelle de six ans (2000-2005) de SST, anomalies de niveau de la mer, transport d'Ekman et vitesse et direction de vent (données satellitales et sorties de modèles).
APA, Harvard, Vancouver, ISO, and other styles
32

Breton, Jean. "Modélisation thermique et simulation numérique en régime variable de parois à lame d'air insole et/ou ventilée : intégration dans un code de calcul de charges thermiques de bâtiments." Lyon, INSA, 1986. http://www.theses.fr/1986ISAL0014.

Full text
Abstract:
Nous développons dans ce travail des modèles numériques de comportement thermique dynamique de parois à lame d'air verticale utilisées comme récupérateurs d’apport gratuit solaires ou internes (mur à effet de serre, mur Trombe, mur periéto-dynamique et hélio-dynamique). La première partie est consacrée à une étude bibliographique détaillée sur le comportement convectif des cavités de grand rapport d'aspect. Dans une deuxième partie, nous définissons les hypothèses et nous décrivons les modèles proposés pour chaque paroi (PALADAIN) puis leur couplage au code TONY de simulation du comportement thermique des bâtiments. La troisième partie développe des études de sensibilité soit sur les paramètres physiques, soit sur des paramètres conductifs des systèmes. Ces exploitations utilisent un critère d'évaluation énergétique original (la Fraction des Gains Solaires) et permettent de mettre en évidence l'influence prépondérante des couplages thermiques et aérauliques de la paroi concernée avec l’habitat. A l'issue de ce chapitre, nous proposons des modèles simplifiés respectant ce dernier aspect, tout en acceptant une description moins détaillée des phénomènes physiques au niveau de la paroi
In our present work we develop detailed numerical software of the thermal behaviour of walls containing a vertical air slab and used as solar or internal gains collectors(Trombe wall, green house effect wall. . . ). The first part is devoted to a bibliographic analysis of convective behaviour of large aspect ratio cavities. In a second part we define the hypothesis and describe the numerical mode is used for each wal1 and their coupling with a detailed software of the thermal behaviour of buildings. The third part presents parametric studies of physical or technological characteristics of the walls. We use here an original criteria for the energetic performance (the Solar Gain Ratio) which enable us to show the main influence of the aeraulic and thermal couplings between the wall and the dwelling cell. Finally we propose simplified mode is which respect this last point and accept a more general description of the physical phenomena inside the walls
APA, Harvard, Vancouver, ISO, and other styles
33

Hébert, Benoît-Paul. "Régression avec une variable dépendante ordinale, comparaison de la performance de deux modèles logistiques ordinaux et du modèle linéaire classique à l'aide de données simulées." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1998. http://www.collectionscanada.ca/obj/s4/f2/dsk2/tape17/PQDD_0016/NQ36277.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Banciu, Andrei. "A stochastic approach for the range evaluation." Rennes 1, 2012. http://www.theses.fr/2012REN1E002.

Full text
Abstract:
Les applications de traitement du signal ont connu un très fort développement dans les dernières décennies, bénéficiant des avancées majeures de l'industrie des semi-conducteurs. Toutes les implémentations pratiques utilisent l`arithmétique en virgule fixe afin de réduire la surface et la consommation d'énergie. En conséquence, une conversion de la description en virgule flottante de l'algorithme à une implémentation en virgule fixe qui ajuste la largeur du chemin de données doit être réalisée. C'est un processus d'optimisation qui consiste à trouver les partie fractionnaire (évaluation de la précision numérique) et entière (estimation de la dynamique) minimales qui satisfassent les contraintes de performance. Dans cette thèse, une approche stochastique pour l'évaluation de la dynamique des données est présentée. Notre objectif est d'obtenir une représentation complète de la variabilité qui intègre le comportement probabiliste et non seulement les limites maximales et minimales. Une méthode basée sur le développement de Karhunen-Loève est développée pour le cas des systèmes linéaires et invariants dans le temps. Ensuite, le développement du chaos polynomial est introduit afin de traiter des opérations non-linéaires. Les méthodes sont appliquées à l'optimisation de la taille de données quand une légère dégradation des performances est acceptable. La dynamique retenue ne couvre plus tout l'intervalle théorique de variation : des débordements sont autorisés avec une contrainte quant à leur probabilité d'apparition. Les signaux qui ont des variations importantes de leur amplitude sont approximées avec des intervalles serrés pour réduire le coût de l'implémentation.
APA, Harvard, Vancouver, ISO, and other styles
35

Perthame, Emeline. "Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S122/document.

Full text
Abstract:
Les données à haut-débit, par leur grande dimension et leur hétérogénéité, ont motivé le développement de méthodes statistiques pour la sélection de variables. En effet, le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches de sélection habituelles, construites sous l'hypothèse d'indépendance des variables, sont alors remises en question car elles peuvent conduire à des décisions erronées. L'objectif de cette thèse est de contribuer à l'amélioration des méthodes de sélection de variables pour la régression et la classification supervisée, par une meilleure prise en compte de la dépendance entre les statistiques de sélection. L'ensemble des méthodes proposées s'appuie sur la description de la dépendance entre covariables par un petit nombre de variables latentes. Ce modèle à facteurs suppose que les covariables sont indépendantes conditionnellement à un vecteur de facteurs latents. Une partie de ce travail de thèse porte sur l'analyse de données de potentiels évoqués (ERP). Les ERP sont utilisés pour décrire par électro-encéphalographie l'évolution temporelle de l'activité cérébrale. Sur les courts intervalles de temps durant lesquels les variations d'ERPs peuvent être liées à des conditions expérimentales, le signal psychologique est faible, au regard de la forte variabilité inter-individuelle des courbes ERP. En effet, ces données sont caractérisées par une structure de dépendance temporelle forte et complexe. L'analyse statistique de ces données revient à tester pour chaque instant un lien entre l'activité cérébrale et des conditions expérimentales. Une méthode de décorrélation des statistiques de test est proposée, basée sur la modélisation jointe du signal et de la dépendance à partir d'une connaissance préalable d'instants où le signal est nul. Ensuite, l'apport du modèle à facteurs dans le cadre général de l'Analyse Discriminante Linéaire est étudié. On démontre que la règle linéaire de classification optimale conditionnelle aux facteurs latents est plus performante que la règle non-conditionnelle. Un algorithme de type EM pour l'estimation des paramètres du modèle est proposé. La méthode de décorrélation des données ainsi définie est compatible avec un objectif de prédiction. Enfin, on aborde de manière plus formelle les problématiques de détection et d'identification de signal en situation de dépendance. On s'intéresse plus particulièrement au Higher Criticism (HC), défini sous l'hypothèse d'un signal rare de faible amplitude et sous l'indépendance. Il est montré dans la littérature que cette méthode atteint des bornes théoriques de détection. Les propriétés du HC en situation de dépendance sont étudiées et les bornes de détectabilité et d'estimabilité sont étendues à des situations arbitrairement complexes de dépendance. Dans le cadre de l'identification de signal, une adaptation de la méthode Higher Criticism Thresholding par décorrélation par les innovations est proposée
The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships between event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null. Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Discriminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parameters is proposed. This method of data decorrelation is compatible with a prediction purpose. At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed
APA, Harvard, Vancouver, ISO, and other styles
36

Devijver, Emilie. "Modèles de mélange pour la régression en grande dimension, application aux données fonctionnelles." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112130/document.

Full text
Abstract:
Les modèles de mélange pour la régression sont utilisés pour modéliser la relation entre la réponse et les prédicteurs, pour des données issues de différentes sous-populations. Dans cette thèse, on étudie des prédicteurs de grande dimension et une réponse de grande dimension. Tout d’abord, on obtient une inégalité oracle ℓ1 satisfaite par l’estimateur du Lasso. On s’intéresse à cet estimateur pour ses propriétés de régularisation ℓ1. On propose aussi deux procédures pour pallier ce problème de classification en grande dimension. La première procédure utilise l’estimateur du maximum de vraisemblance pour estimer la densité conditionnelle inconnue, en se restreignant aux variables actives sélectionnées par un estimateur de type Lasso. La seconde procédure considère la sélection de variables et la réduction de rang pour diminuer la dimension. Pour chaque procédure, on obtient une inégalité oracle, qui explicite la pénalité nécessaire pour sélectionner un modèle proche de l’oracle. On étend ces procédures au cas des données fonctionnelles, où les prédicteurs et la réponse peuvent être des fonctions. Dans ce but, on utilise une approche par ondelettes. Pour chaque procédure, on fournit des algorithmes, et on applique et évalue nos méthodes sur des simulations et des données réelles. En particulier, on illustre la première méthode par des données de consommation électrique
Finite mixture regression models are useful for modeling the relationship between a response and predictors, arising from different subpopulations. In this thesis, we focus on high-dimensional predictors and a high-dimensional response. First of all, we provide an ℓ1-oracle inequality satisfied by the Lasso estimator. We focus on this estimator for its ℓ1-regularization properties rather than for the variable selection procedure. We also propose two procedures to deal with this issue. The first procedure leads to estimate the unknown conditional mixture density by a maximum likelihood estimator, restricted to the relevant variables selected by an ℓ1-penalized maximum likelihood estimator. The second procedure considers jointly predictor selection and rank reduction for obtaining lower-dimensional approximations of parameters matrices. For each procedure, we get an oracle inequality, which derives the penalty shape of the criterion, depending on the complexity of the random model collection. We extend these procedures to the functional case, where predictors and responses are functions. For this purpose, we use a wavelet-based approach. For each situation, we provide algorithms, apply and evaluate our methods both on simulations and real datasets. In particular, we illustrate the first procedure on an electricity load consumption dataset
APA, Harvard, Vancouver, ISO, and other styles
37

Sehi-Bi, Ballo Blizand. "Impact de la mondialisation sur la taille de l’État : analyse théorique et empirique sur un panel de pays à revenu élevé, intermédiaire et faible." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCG008.

Full text
Abstract:
Impacte de la mondialisation sur la taille de l’État : analyse théorique et empirique sur un panel de pays à revenu élevé, intermédiaire et faibleLongtemps après l’avènement de la Théorie générale de Keynes (1936) qui promeut le rôle du secteur public en matière de stabilisation économique, le débat opposant les partisans du keynésianisme aux tenants du « laisser-faire » demeure controversé ; et ce, malgré la Grand Récession de 2008-2009 qui aurait pu marquer un retour définitif, ou du moins pour longtemps, à l’interventionnisme étatique. La thèse ambitionne d’analyser les effets de la mondialisation sur la taille de l’État à travers la mesure de l’impact de la croissance économique et celle de l’ouverture économique (commerciale et productive) sur la part des dépenses publiques dans le PIB. Nous mesurons en outre l’impact du solde budgétaire sur le solde commercial. Pour ce faire, nous utilisons d’une part, un modèle vectoriel autorégressif (VAR) en panel que nous estimons par la méthode GMM. D’autre part, nous mettons également en œuvre des méthodes applicables aux panel hétérogènes dynamiques (PMG, MG et DFE). Le travail de recherche indique que le lien entre la croissance économique et les dépenses publiques est fonction de la nature des dépenses et de l’évolution des inégalités (dans les pays à revenu élevé). Il montre aussi que dans les pays à revenu élevé et intermédiaire, la relation entre les soldes budgétaire et courant dépend de l’évolution de la production ; le solde courant influence par ailleurs le solde budgétaire dans les pays à revenu intermédiaire. Enfin, le travail révèle que l’ouverture commerciale peut entrainer une certaine inefficacité de l’action publique à travers la baisse des recettes fiscales
The impact of globalization on the size of the state: theoretical and empirical analysis on high-income, middle-income and low-income countriesMany years after the General Theory of Keynes (1936), which promotes the role of the public sector in economic stabilization, the debate between the supporters of Keynesianism and the partisans of « laissez-faire » remains controversial, despite the Great Recession of 2008-2009 that could have marked a definitive return, or at least for a long time, to the intervention of the state in the economy. The thesis aims to analyze the effects of globalization on the size of the state through the measurement of the impact of economic growth and economic openness. We also measure the impact of the budget balance on the trade balance. To do this, we use on the one hand, a vector autoregressive model (VAR) in a panel, that we estimate by the GMM method. On the other hand, we also implement methods applicable to dynamic heterogeneous panels (PMG, MG and DFE). Ours results suggests that, the link between economic growth and public spending is a function of the nature of spending and changing inequality (in high-income countries). It also show that in high- and middle-income countries, the relationship between fiscal and current balances depends on changes in output; the current account also influences the budget balance in middle-income countries. Finally, the work reveals that trade openness can lead to some inefficiency of public action through lower tax revenues
APA, Harvard, Vancouver, ISO, and other styles
38

Sainct, Benoît. "Contributions statistiques à l'analyse de mégadonnées publiques." Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30053.

Full text
Abstract:
L'objectif de cette thèse est de proposer un ensemble d'outils méthodologiques pour répondre à deux problématiques : la prédiction de masse salariale des collectivités, et l'analyse de leurs données de fiscalité. Pour la première, les travaux s'articulent à nouveau autour de deux thèmes statistiques : la sélection de modèle de série temporelle, et l'analyse de données fonctionnelles. Du fait de la complexité des données et des fortes contraintes de temps de calcul, un rassemblement de l'information a été privilégié. Nous avons utilisé en particulier l'Analyse en Composantes Principales Fonctionnelle et un modèle de mélanges gaussiens pour faire de la classification non-supervisée des profils de rémunération. Ces méthodes ont été appliquées dans deux prototypes d'outils qui représentent l'une des réalisations de cette thèse. Pour la seconde problématique, le travail a été effectué en trois temps : d'abord, des méthodes novatrices de classification d'une variable cible ordinale ont été comparées sur des données publiques déjà analysées dans la littérature, notamment en exploitant des forêts aléatoires, des SVM et du gradient boosting. Ensuite, ces méthodes ont été adaptées à la détection d'anomalies dans un contexte ciblé, ordinal, non supervisé et non paramétrique, et leur efficacité a été principalement comparée sur des jeux de données synthétiques. C'est notre forêt aléatoire ordinale par séparation de classes qui semble présenter le meilleur résultat. Enfin, cette méthode a été appliquée sur des données réelles de bases fiscales, où les soucis de taille et de complexité des données sont plus importants. Destinée aux directions des collectivités territoriales, cette nouvelle approche de l'examen de leur base de données constitue le second aboutissement de ces travaux de thèse
The aim of this thesis is to provide a set of methodological tools to answer two problems: the prediction of the payroll of local authorities, and the analysis of their tax data. For the first, the work revolves around two statistical themes: the selection of time series model, and the analysis of functional data. Because of the complexity of the data and the heavy computation time constraints, a clustering approach has been favored. In particular, we used Functional Principal Component Analysis and a model of Gaussian mixtures to achieve unsupervised classification. These methods have been applied in two prototypes of tools that represent one of the achievements of this thesis. For the second problem, the work was done in three stages: first, innovative methods for classifying an ordinal target variable were compared on public data, notably by exploiting random forests, SVM and gradient boosting. Then, these methods were adapted to outlier detection in a targeted, ordinal, unsupervised and non-parametric context, and their efficiency was mainly compared on synthetic datasets. It is our ordinal random forest by class separation that seems to have the best result. Finally, this method has been applied to real data of tax bases, where the concerns of size and complexity are more important. Aimed at local authorities directorates, this new approach to examining their database is the second outcome of this work
APA, Harvard, Vancouver, ISO, and other styles
39

Soret, Perrine. "Régression pénalisée de type Lasso pour l’analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0254.

Full text
Abstract:
Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s'est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension.Cette thèse est consacrée à l'application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières.Premièrement, chez des patients atteints du virus de l'immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement.La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d'orienter le choix des traitements.En dessous d'un seuil, la charge virale est indétectable, on parle de données censurées à gauche.Nous proposons deux nouvelles approches Lasso basées sur l'algorithme Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelle. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l'espérance conditionnelle ont été proposées en analyse de survie. Enfin, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne.Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d'abondances relatives (proportion de chaque espèce par individu, dites données compositionnelles) et elles présentent une structure phylogénétique.Nous avons dressé un état de l'art des méthodes d'analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l'applicabilité et l'efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données.Puis nous appliquons ces recherches à l'analyse de l'association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong
In clinical studies and thanks to technological progress, the amount of information collected in the same patient continues to grow leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method proved to be appropriate to circumvent over-adjustment problems in high-dimensional settings.This thesis is devoted to the application and development of Lasso-penalized regression for clinical data presenting particular structures.First, in patients with the human immunodeficiency virus, mutations in the virus's genetic structure may be related to the development of drug resistance. The prediction of the viral load from (potentially large) mutations allows guiding treatment choice.Below a threshold, the viral load is undetectable, data are left-censored. We propose two new Lasso approaches based on the Buckley-James algorithm, which imputes censored values ​​by a conditional expectation. By reversing the response, we obtain a right-censored problem, for which non-parametric estimates of the conditional expectation have been proposed in survival analysis. Finally, we propose a parametric estimation based on a Gaussian hypothesis.Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are presented as relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure.We have established a state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data.Then we apply this research to the analysis of the association between bacteria / fungi and the decline of pulmonary function in patients with cystic fibrosis from the MucoFong project
APA, Harvard, Vancouver, ISO, and other styles
40

Belghoul, Abdeslem. "Optimizing Communication Cost in Distributed Query Processing." Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC025/document.

Full text
Abstract:
Dans cette thèse, nous étudions le problème d’optimisation du temps de transfert de données dans les systèmes de gestion de données distribuées, en nous focalisant sur la relation entre le temps de communication de données et la configuration du middleware. En réalité, le middleware détermine, entre autres, comment les données sont divisées en lots de F tuples et messages de M octets avant d’être communiqués à travers le réseau. Concrètement, nous nous concentrons sur la question de recherche suivante : étant donnée requête Q et l’environnement réseau, quelle est la meilleure configuration de F et M qui minimisent le temps de communication du résultat de la requête à travers le réseau?A notre connaissance, ce problème n’a jamais été étudié par la communauté de recherche en base de données.Premièrement, nous présentons une étude expérimentale qui met en évidence l’impact de la configuration du middleware sur le temps de transfert de données. Nous explorons deux paramètres du middleware que nous avons empiriquement identifiés comme ayant une influence importante sur le temps de transfert de données: (i) la taille du lot F (c’est-à-dire le nombre de tuples dans un lot qui est communiqué à la fois vers une application consommant des données) et (ii) la taille du message M (c’est-à-dire la taille en octets du tampon du middleware qui correspond à la quantité de données à transférer à partir du middleware vers la couche réseau). Ensuite, nous décrivons un modèle de coût permettant d’estimer le temps de transfert de données. Ce modèle de coût est basé sur la manière dont les données sont transférées entre les noeuds de traitement de données. Notre modèle de coût est basé sur deux observations cruciales: (i) les lots et les messages de données sont communiqués différemment sur le réseau : les lots sont communiqués de façon synchrone et les messages dans un lot sont communiqués en pipeline (asynchrone) et (ii) en raison de la latence réseau, le coût de transfert du premier message d’un lot est plus élevé que le coût de transfert des autres messages du même lot. Nous proposons une stratégie pour calibrer les poids du premier et non premier messages dans un lot. Ces poids sont des paramètres dépendant de l’environnement réseau et sont utilisés par la fonction d’estimation du temps de communication de données. Enfin, nous développons un algorithme d’optimisation permettant de calculer les valeurs des paramètres F et M qui fournissent un bon compromis entre un temps optimisé de communication de données et une consommation minimale de ressources. L’approche proposée dans cette thèse a été validée expérimentalement en utilisant des données issues d’une application en Astronomie
In this thesis, we take a complementary look to the problem of optimizing the time for communicating query results in distributed query processing, by investigating the relationship between the communication time and the middleware configuration. Indeed, the middleware determines, among others, how data is divided into batches and messages before being communicated over the network. Concretely, we focus on the research question: given a query Q and a network environment, what is the best middleware configuration that minimizes the time for transferring the query result over the network? To the best of our knowledge, the database research community does not have well-established strategies for middleware tuning. We present first an intensive experimental study that emphasizes the crucial impact of middleware configuration on the time for communicating query results. We focus on two middleware parameters that we empirically identified as having an important influence on the communication time: (i) the fetch size F (i.e., the number of tuples in a batch that is communicated at once to an application consuming the data) and (ii) the message size M (i.e., the size in bytes of the middleware buffer, which corresponds to the amount of data that can be communicated at once from the middleware to the network layer; a batch of F tuples can be communicated via one or several messages of M bytes). Then, we describe a cost model for estimating the communication time, which is based on how data is communicated between computation nodes. Precisely, our cost model is based on two crucial observations: (i) batches and messages are communicated differently over the network: batches are communicated synchronously, whereas messages in a batch are communicated in pipeline (asynchronously), and (ii) due to network latency, it is more expensive to communicate the first message in a batch compared to any other message that is not the first in its batch. We propose an effective strategy for calibrating the network-dependent parameters of the communication time estimation function i.e, the costs of first message and non first message in their batch. Finally, we develop an optimization algorithm to effectively compute the values of the middleware parameters F and M that minimize the communication time. The proposed algorithm allows to quickly find (in small fraction of a second) the values of the middleware parameters F and M that translate a good trade-off between low resource consumption and low communication time. The proposed approach has been evaluated using a dataset issued from application in Astronomy
APA, Harvard, Vancouver, ISO, and other styles
41

Smagghue, Gabriel. "Essays on the impact of international trade and labor regulation on firms." Thesis, Paris, Institut d'études politiques, 2014. http://www.theses.fr/2014IEPP0022/document.

Full text
Abstract:
La littérature récente en commerce international et macroéconomie a souligné le rôle majeur de grandes firmes dans les résultats agrégés d'une économie. Les grandes firmes influencent, inter alia, les fluctuations économiques, les performances à l'exportation et les inégalités de salaires et de coût de la vie. Il est donc crucial de saisir comment les grandes firmes émergent et se comportent. Cette thèse s'intéresse à trois aspects de cette question. Premièrement, j'étudie comment les firmes ajustent la qualité de leurs produits à une intensification de la compétition "low-cost" sur les marchés étrangers. Pour ce faire, je développe une nouvelle méthode d'estimation de la qualité des produits au niveau firme et je trouve que les firmes augmentent leur qualité en réponse à la compétition "low-cost". Deuxièmement, j'examine la manière dont les firmes ajustent leurs ventes lorsqu'un choc de demande (e.g., une récession) frappe une de leurs destinations. Dans le cadre de l'industrie du Champagne durant la récession de 2000-2001, je montre que les firmes ré-allouent leurs ventes vers les marchés dont les conditions de demandes sont plus favorables. Cela suggère un nouveau mécanisme de diffusion internationale des chocs. Finalement, je regarde la manière dont les firmes ajustent leur taille et leur mix de capital et travail lorsque la régulation du travail contraint plus fortement les grandes firmes. Dans le cas du seuil de 50 employés en France, je trouve que les firmes se contractent et substituent du travail au capital pour limiter le coût de la régulation. Au niveau macro, mes résultats suggèrent que la régulation profite aux travailleurs mais pas aux détenteurs de capital
Recent literature in international economics and macroeconomics has pointed to the major role played by large firms in shaping aggregate economic outcomes. Large firms influence, inter alia, economic fluctuations, performance on export markets and inequalities between workers and between consumers. It is therefore crucial to understand how large firms emerge and behave. In the present thesis, I look at three independent aspects of this question. First, I study how exporting firms adjust the quality of the products they export in response to an intensification of "low-cost" competition in foreign markets. To this end, I develop a new method to estimate the quality of products at the firm-level and I find evidence that firms upgrade quality in response to "low-cost" competition. Second, I investigate the way exporting firms adjust their sales when a demand shock (e.g. an economic recession, a war) occurs in one of their destinations. In the context of the Champagne wine industry during the 2000-2001 economic recession, I show that firms reallocate their sales toward markets where demand conditions are relatively more favorable. Lastly, I look at the way firms adjust their size and their mix of capital and labor in response to labor regulations which are more binding to large firms. I find that firms shrink and substitute capital for labor to mitigate the labor cost of the regulation. At the aggregate level, preliminary results suggests that workers gain from the regulation while capital owners lose
APA, Harvard, Vancouver, ISO, and other styles
42

Wang, Chu. "Deep learning-based prognostics for fuel cells under variable load operating conditions." Electronic Thesis or Diss., Aix-Marseille, 2022. http://www.theses.fr/2022AIXM0530.

Full text
Abstract:
Les systèmes de piles à combustible à membrane d'échange de protons (PEMFC) conviennent à diverses applications dans le domaine des transports, mais leur coût élevé et leur manque de durabilité restent les principaux facteurs limitant leur commercialisation à grande échelle. Dans les applications de transport, la détérioration des PEMFC est aggravée par des conditions de charge variables, ce qui entraîne une diminution de leur durée de vie utile restante (RUL). La gestion des pronostics et de la santé (PHM) est un outil efficace pour prévoir les risques du système, gérer les calendriers de contrôle/maintenance du système, améliorer la sécurité et la fiabilité du système, prolonger la durée de vie du système et réduire les coûts d'exploitation/maintenance. Le pronostic est une base importante et un support clé pour le PHM, et ses tâches principales incluent l'extraction d'indicateurs de santé, la prédiction des tendances de dégradation et l'estimation de la RUL. Les caractéristiques de dégradation à long terme des PEMFC sont dissimulées dans des conditions de charge variables, ce qui augmente la difficulté d'extraction des indicateurs de santé, réduit la précision de la prédiction de la dégradation et inhibe la fiabilité de l'estimation de la durée de vie. Dans cette optique, le travail de thèse part de la modélisation du comportement de dégradation des PEMFC dans des conditions de charge variables et mène des travaux de recherche sur l'extraction d'indicateurs de santé, la prédiction des tendances de dégradation à court/long terme, l'estimation RUL et l'évaluation de la fiabilité
Proton exchange membrane fuel cell (PEMFC) systems are suitable for various transportation applications thanks to their compact structure, high power density, low start/running temperature, and zero carbon emissions. High cost and lack of durability of PEMFC are still the core factors limiting their large-scale commercialization. In transportation applications, the deterioration of PEMFCs is aggravated by variable load conditions, resulting in a decrease in their Remaining Useful Life (RUL). Prognostics and health management (PHM) is an effective tool to forecast potential system risks, manage system control/maintenance schedules, improve system safety and reliability, extend system life, and reduce operation/maintenance costs. Prognostics is an important foundation and key support for PHM, and its core tasks include health indicator extraction, degradation trend prediction, and RUL estimation. The long-term degradation characteristics of PEMFC are concealed in variable load conditions, which increases the difficulty of health indicator extraction, reduces the accuracy of degradation prediction, and inhibits the reliability of life estimation. In view of this, the thesis work starts from modeling the degradation behavior of PEMFC under variable load conditions and carries out research work on health indicator extraction, short/long-term degradation trend prediction, RUL estimation and reliability evaluation
APA, Harvard, Vancouver, ISO, and other styles
43

Kammoun, Radhouane. "Etude de l'évaluation des titres intercotés dans un contexte d'asymétrie d'information : cas des entreprises européennes intercotées au Nasdaq." Thesis, Aix-Marseille 3, 2011. http://www.theses.fr/2011AIX32029.

Full text
Abstract:
L’intercotation au Nasdaq est une bonne opportunité à l’entreprise européenne de se développer aux Etats-Unis et d’accéder à un marché liquide. Elargir sa base d’investisseurs, lever des fonds à un coût moindre pour réaliser de nouveaux projets et réduire les barrières géographiques et législatives, sont parmi les principaux avantages de l’intercotation. A travers un modèle théorique et une étude empirique sur un échantillon d’entreprises en provenance de pays européens et intercotées au Nasdaq, nous étudions l’impact de l’intercotation sur la performance des entreprises. D’un point de vue investisseur, le titre intercoté représente une opportunité de diversification et permet d’atténuer l’effet « home bias ». L’intercotation est une preuve de compétitivité de l’entreprise. La cotation au Nasdaq procure à l’entreprise plus de visibilité et lui permet d’attirer de nouveaux investisseurs. Les caractéristiques spécifiques à l’entreprise tels que la taille ou le secteur d’activité influencent les bénéfices de la l’intercotation
Cross-listing is a good opportunity for European firms to grow and to have access to a liquid market. Widening the investor base, raising funds at a lower cost to implement new projects and reducing geographical barriers and laws, are among the main advantages of cross-listing. Through a theoretical and an empirical study on a sample of firms from European countries and cross-listed on Nasdaq, we study the impact of cross-listing on corporate performance. For investors, the crosslisted securities represents a diversification opportunity and helps mitigate the home bias effect. The crosslisting provides the company greater visibility and allows it to attract new investors. The firm-specific characteristics such as size or industry influence the benefits of cross-listing
APA, Harvard, Vancouver, ISO, and other styles
44

Michel, Pierre. "Sélection d'items en classification non supervisée et questionnaires informatisés adaptatifs : applications à des données de qualité de vie liée à la santé." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM4097/document.

Full text
Abstract:
Un questionnaire adaptatif fournit une mesure valide de la qualité de vie des patients et réduit le nombre d'items à remplir. Cette approche est dépendante des modèles utilisés, basés sur des hypothèses parfois non vérifiables. Nous proposons une approche alternative basée sur les arbres de décision. Cette approche n'est basée sur aucune hypothèse et requiert moins de temps de calcul pour l'administration des items. Nous présentons différentes simulations qui démontrent la pertinence de notre approche. Nous présentons une méthode de classification non supervisée appelée CUBT. CUBT comprend trois étapes pour obtenir une partition optimale d'un jeu de données. La première étape construit un arbre en divisant récursivement le jeu de données. La deuxième étape regroupe les paires de noeuds terminaux de l'arbre. La troisième étape agrège des nœuds terminaux qui ne sont pas issus de la même division. Différentes simulations sont présentés pour comparer CUBT avec d'autres approches. Nous définissons également des heuristiques concernant le choix des paramètres de CUBT. CUBT identifie les variables qui sont actives dans la construction de l'arbre. Cependant, bien que certaines variables peuvent être sans importance, elles peuvent être compétitives pour les variables actives. Il est essentiel de classer les variables en fonction d'un score d'importance pour déterminer leur pertinence dans un modèle donné. Nous présentons une méthode pour mesurer l'importance des variables basée sur CUBT et les divisions binaires compétitives pour définir un score d'importance des variables. Nous analysons l'efficacité et la stabilité de ce nouvel indice, en le comparant à d'autres méthodes
An adaptive test provides a valid measure of quality of life of patients and reduces the number of items to be filled. This approach is dependent on the models used, sometimes based on unverifiable assumptions. We propose an alternative approach based on decision trees. This approach is not based on any assumptions and requires less calculation time for item administration. We present different simulations that demonstrate the relevance of our approach.We present an unsupervised classification method called CUBT. CUBT includes three steps to obtain an optimal partition of a data set. The first step grows a tree by recursively dividing the data set. The second step groups together the pairs of terminal nodes of the tree. The third step aggregates terminal nodes that do not come from the same split. Different simulations are presented to compare CUBT with other approaches. We also define heuristics for the choice of CUBT parameters.CUBT identifies the variables that are active in the construction of the tree. However, although some variables may be irrelevant, they may be competitive for the active variables. It is essential to rank the variables according to an importance score to determine their relevance in a given model. We present a method to measure the importance of variables based on CUBT and competitive binary splis to define a score of variable importance. We analyze the efficiency and stability of this new index, comparing it with other methods
APA, Harvard, Vancouver, ISO, and other styles
45

Geronimi, Julia. "Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale." Thesis, Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1114/document.

Full text
Abstract:
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps
Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time
APA, Harvard, Vancouver, ISO, and other styles
46

Sagara, Issaka. "Méthodes d'analyse statistique pour données répétées dans les essais cliniques : intérêts et applications au paludisme." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM5081/document.

Full text
Abstract:
De nombreuses études cliniques ou interventions de lutte ont été faites ou sont en cours en Afrique pour la lutte contre le fléau du paludisme. En zone d'endémie, le paludisme est une maladie récurrente. La revue de littérature indique une application limitée des outils statistiques appropriés existants pour l'analyse des données récurrentes de paludisme. Nous avons mis en oeuvre des méthodes statistiques appropriées pour l'analyse des données répétées d'essais thérapeutiques de paludisme. Nous avons également étudié les mesures répétées d'hémoglobine lors du suivi de traitements antipaludiques en vue d'évaluer la tolérance ou sécurité des médicaments en regroupant les données de 13 essais cliniques.Pour l'analyse du nombre d'épisodes de paludisme, la régression binomiale négative a été mise en oeuvre. Pour modéliser la récurrence des épisodes de paludisme, quatre modèles ont été utilisés : i) Les équations d'estimation généralisées (GEE) utilisant la distribution de Poisson; et trois modèles qui sont une extension du modèle Cox: ii) le modèle de processus de comptage d'Andersen-Gill (AG-CP), iii) le modèle de processus de comptage de Prentice-Williams-Peterson (PWP-CP); et iv) le modèle de Fragilité partagée de distribution gamma. Pour l'analyse de sécurité, c'est-à-dire l'évaluation de l'impact de traitements antipaludiques sur le taux d'hémoglobine ou la survenue de l'anémie, les modèles linéaires et latents généralisés mixtes (« GLLAMM : generalized linear and latent mixed models ») ont été mis en oeuvre. Les perspectives sont l'élaboration de guides de bonnes pratiques de préparation et d'analyse ainsi que la création d'un entrepôt des données de paludisme
Numerous clinical studies or control interventions were done or are ongoing in Africa for malaria control. For an efficient control of this disease, the strategies should be closer to the reality of the field and the data should be analyzed appropriately. In endemic areas, malaria is a recurrent disease. Repeated malaria episodes are common in African. However, the literature review indicates a limited application of appropriate statistical tools for the analysis of recurrent malaria data. We implemented appropriate statistical methods for the analysis of these data We have also studied the repeated measurements of hemoglobin during malaria treatments follow-up in order to assess the safety of the study drugs by pooling data from 13 clinical trials.For the analysis of the number of malaria episodes, the negative binomial regression has been implemented. To model the recurrence of malaria episodes, four models were used: i) the generalized estimating equations (GEE) using the Poisson distribution; and three models that are an extension of the Cox model: ii) Andersen-Gill counting process (AG-CP), iii) Prentice-Williams-Peterson counting process (PWP-CP); and (iv) the shared gamma frailty model. For the safety analysis, i.e. the assessment of the impact of malaria treatment on hemoglobin levels or the onset of anemia, the generalized linear and latent mixed models (GLLAMM) has been implemented. We have shown how to properly apply the existing statistical tools in the analysis of these data. The prospects of this work remain in the development of guides on good practices on the methodology of the preparation and analysis and storage network for malaria data
APA, Harvard, Vancouver, ISO, and other styles
47

Chahdoura, Sami. "Etude sur un cas modèle de questionnaire du double recadrage des notes suivant l'équation personnelle : modèle de codage d'une variable unique : application de l'analyse des correspondances aux comptes du bilan." Paris 6, 1995. http://www.theses.fr/1995PA066044.

Full text
Abstract:
Dans la première partie de ces travaux, nous nous intéressons au codage suivant l'équation personnelle, qui est un codage barycentrique par morceau. Après les rappels d'usage sur les codages, et en particulier, sur les codages flous, barycentriques et linéaires par morceaux, nous justifierons l'introduction du codage suivant l'équation personnelle. Par la suite, nous introduisons sur un cas modèle de questionnaire, le double recadrage des notes suivant l'équation personnelle. Enfin nous expliquons, sur un exemple, les améliorations qu'apporte ce double recadrage a l'analyse des correspondances d'un questionnaire. Dans la deuxième partie, nous considérons plusieurs découpages simultanés d'une même variable sous-jacente, ce qui revient à créer plusieurs blocs totalement ordonnes de modalités. Nous montrons, par la suite, que l'ensemble réunion de ces blocs peut être muni d'une structure d'ordre partiel induisant l'ordre propre à chacun des blocs, complétée, éventuellement par des relations existant entre les modalités de blocs différents. La dernière partie est l'application de l'analyse factorielle des correspondances et la classification automatique aux comptes du bilan. Nous commençons par une étude sans a priori des données brutes. Nous étudions par la suite ces données transformées en ratios financiers. Enfin, nous comparons ces deux études en utilisant essentiellement la méthode des éléments supplémentaires.
APA, Harvard, Vancouver, ISO, and other styles
48

Geronimi, Julia. "Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale." Electronic Thesis or Diss., Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1114.

Full text
Abstract:
Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps
Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time
APA, Harvard, Vancouver, ISO, and other styles
49

Kamnang, Wanko Patrick. "Optimisation des requêtes skyline multidimensionnelles." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0010/document.

Full text
Abstract:
Dans le cadre de la sélection de meilleurs éléments au sein d’une base de données multidimensionnelle, plusieurs types de requêtes ont été définies. L’opérateur skyline présente l’avantage de ne pas nécessiter la définition d’une fonction de score permettant de classer lesdits éléments. Cependant, la propriété de monotonie que cet opérateur ne présente pas, rend non seulement (i) difficile l’optimisation de ses requêtes dans un contexte multidimensionnel, mais aussi (ii) presque imprévisible la taille du résultat des requêtes. Ce travail se propose, dans un premier temps, d’aborder la question de l’estimation de la taille du résultat d’une requête skyline donnée, en formulant des estimateurs présentant de bonnes propriétés statistiques(sans biais ou convergeant). Ensuite, il fournit deux approches différentes à l’optimisation des requêtes skyline. La première reposant sur un concept classique des bases de données qui est la dépendance fonctionnelle. La seconde se rapprochant des techniques de compression des données. Ces deux techniques trouvent leur place au sein de l’état de l’art comme le confortent les résultats expérimentaux.Nous abordons enfin la question de requêtes skyline au sein de données dynamiques en adaptant l’une de nos solutions précédentes dans cet intérêt
As part of the selection of the best items in a multidimensional database,several kinds of query were defined. The skyline operator has the advantage of not requiring the definition of a scoring function in order to classify tuples. However, the property of monotony that this operator does not satify, (i) makes difficult to optimize its queries in a multidimensional context, (ii) makes hard to estimate the size of query result. This work proposes, first, to address the question of estimating the size of the result of a given skyline query, formulating estimators with good statistical properties (unbiased or convergent). Then, it provides two different approaches to optimize multidimensional skyline queries. The first leans on a well known database concept: functional dependencies. And the second approach looks like a data compression method. Both algorithms are very interesting as confirm the experimental results. Finally, we address the issue of skyline queries in dynamic data by adapting one of our previous solutions in this goal
APA, Harvard, Vancouver, ISO, and other styles
50

Spence, Stephen. "Une étude du lien entre la productivité et la bienfaisance des entreprises : une présentation des données provenant d'une expérience sur terrain de l'industrie sylvicole en Colombie-Britannique." Master's thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/26592.

Full text
Abstract:
Cette étude cherche à mesurer l’importance du lien entre la bienfaisance d’un employeur et la productivité de ses travailleurs. Cet objectif est atteint à l’aide d’un modèle fondé dans la théorie classique et s’inspire par la suite de la littérature des préférences sociales. Plusieurs expériences ont réussi à démontrer l’existence d’un lien entre la productivité et la bienfaisance de l’employeur, mais rarement dans un environnement où cette bienfaisance est imposée de façon exogène. Par voie d’une expérience effectuée sur un échantillon d’étudiants, une étude de Tonin et Vlassopoulos (2013) s’est confrontée à ce défi. Leurs résultats suggèrent que la bienfaisance d’un employeur a un effet positif sur la productivité, mais ceci n’est pas démontré dans l’environnement de travail. L’expérience discutée lors de ce document comble donc le fossé. Le lien en question est évalué en concevant d’une expérience sur le terrain d’une entreprise de reboisement en Colombie-Britannique. Les travailleurs de l’entreprise sont observés sous trois conditions salariales, dont une s’agit du salaire à la pièce ordinaire, une s’agit du salaire à la pièce ordinaire plus une prime pécuniaire, et une s’agit du salaire à la pièce ordinaire plus une prime qui est versée à un organisme de bienfaisance du choix du travailleur. Selon les données recueillies, les travailleurs ont été plus productifs lorsque leur employeur a promis de faire des dons de bienfaisance, mais ont été moins productifs lorsqu’un prime salaire leur a été accordé. Par contre, ces résultats deviennent insignificatifs avec l’inclusion des variables de contrôle pour les conditions météorologiques. Les données analysées ne permettent d’établir un lien entre ni la rémunération ni la bienfaisance de l’employeur. Les changements imposés par l’expérience conçue par ce mémoire ne sont pas suffisants pour surmonter les chocs quotidiens de l’environnement du travail.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography