Dissertations / Theses on the topic 'Profilage des données'

To see the other types of publications on this topic, follow the link: Profilage des données.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 34 dissertations / theses for your research on the topic 'Profilage des données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Chevallier, Marc. "L’Apprentissage artificiel au service du profilage des données." Electronic Thesis or Diss., Paris 13, 2022. http://www.theses.fr/2022PA131060.

Full text
Abstract:
La transformation digitale qui s’est effectuée de manière rapide aux cours des dernières décennies au sein des entreprises a donné lieu à une production massive de données. Une fois les problèmes liés au stockage de ces données résolus, leur utilisation au sein de la Business Intelligence (BI) ou du Machine Learning (ML) est devenue un objectif majeur des entreprises afin de rentabiliser leurs données. Mais l’exploitation de ces données s’avère complexe car elles sont très peu documentées et contiennent très souvent de nombreuses erreurs. C’est dans ce contexte que les domaines du profilage des données et de la qualité des données (QD) ont pris de plus en plus d’importance, le profilage ayant pour but d’extraire des métadonnées informatives sur les données et la qualité des données de quantifier les erreurs dans les données. Le profilage étant un prérequis à la qualité des données nous avons concentré nos travaux sur ce sujet au travers de l’utilisation de vecteurs de métadonnées issu d’action de profilage simple. Ces vecteurs d’informations simples nous ont permis de réaliser des tâches de profilage avancées, en particulier la prédiction de type sémantique complexe au moyen d’algorithmes d’apprentissage artificiel. Les vecteurs de métadonnées que nous avons utilisés sont de grande taille et sont donc affectés par la malédiction de la grande dimension. Ce terme regroupe un ensemble de problèmes de performance survenant en apprentissage artificiel quand le nombre de dimensions du problème augmente. Une méthode pour résoudre ces problèmes est d’utiliser des algorithmes génétiques pour sélectionner un sous-ensemble de dimensions ayant de bonnes propriétés. Dans ce cadre nous avons proposé des améliorations : d’une part, une initialisation non aléatoire des individus composant la population initiale de l’algorithme génétique, d’autre part, des modifications pour l’algorithme génétique avec des mutations agressives afin d’améliorer ses performances (GAAM)
The digital transformation that has been rapidly happening within companies over the last few decades has led to a massive production of data. Once the problems related to the storage of those data have been solved, its use within Business Intelligence (BI) or Machine Learning (ML) has become a major objective for companies in order to make their data profitable. But the exploitation of the data is complex because it is not well documented and often contains many errors. It is in this context that the fields of data profiling and data quality (DQ) have become increasingly important. Profiling aims at extracting informative metadata from the data and data quality aims at quantifying the errors in the data.Profiling being a prerequisite to data quality, we have focused our work on this subject through the use of metadata vectors resulting from simple profiling actions. These simple information vectors have allowed us to perform advanced profiling tasks, in particular the prediction of complex semantic types using machine learning. The metadata vectors we used are large and are therefore affected by the curse of dimensionality. This term refers to a set of performance problems that occur in machine learning when the number of dimensions of the problem increases. One method to solve these problems is to use genetic algorithms to select a subset of dimensions with good properties. In this framework we have proposed improvements: on one hand, a non-random initialization of the individuals composing the initial population of the genetic algorithm, on the other hand, a modification to the genetic algorithm with aggressive mutations in order to improve its performance (GAAM)
APA, Harvard, Vancouver, ISO, and other styles
2

Ben, Ellefi Mohamed. "La recommandation des jeux de données basée sur le profilage pour le liage des données RDF." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT276/document.

Full text
Abstract:
Avec l’émergence du Web de données, notamment les données ouvertes liées, une abondance de données est devenue disponible sur le web. Cependant, les ensembles de données LOD et leurs sous-graphes inhérents varient fortement par rapport a leur taille, le thème et le domaine, les schémas et leur dynamicité dans le temps au niveau des données. Dans ce contexte, l'identification des jeux de données appropriés, qui répondent a des critères spécifiques, est devenue une tâche majeure, mais difficile a soutenir, surtout pour répondre a des besoins spécifiques tels que la recherche d'entités centriques et la recherche des liens sémantique des données liées. Notamment, en ce qui concerne le problème de liage des données, le besoin d'une méthode efficace pour la recommandation des jeux de données est devenu un défi majeur, surtout avec l'état actuel de la topologie du LOD, dont la concentration des liens est très forte au niveau des graphes populaires multi-domaines tels que DBpedia et YAGO, alors qu'une grande liste d'autre jeux de données considérés comme candidats potentiels pour le liage est encore ignorée. Ce problème est dû a la tradition du web sémantique dans le traitement du problème de "identification des jeux de données candidats pour le liage". Bien que la compréhension de la nature du contenu d'un jeu de données spécifique est une condition cruciale pour les cas d'usage mentionnées, nous adoptons dans cette thèse la notion de "profil de jeu de données"- un ensemble de caractéristiques représentatives pour un jeu de données spécifique, notamment dans le cadre de la comparaison avec d'autres jeux de données. Notre première direction de recherche était de mettre en œuvre une approche de recommandation basée sur le filtrage collaboratif, qui exploite à la fois les prols thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d'obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Cette approche a besoin d'apprendre le comportement de la connectivité des jeux de données dans le LOD graphe. Cependant, les expérimentations ont montré que la topologie actuelle de ce nuage LOD est loin d'être complète pour être considéré comme des données d'apprentissage.Face aux limites de la topologie actuelle du graphe LOD, notre recherche a conduit a rompre avec cette représentation de profil thématique et notamment du concept "apprendre pour classer" pour adopter une nouvelle approche pour l'identification des jeux de données candidats basée sur le chevauchement des profils intensionnels entre les différents jeux de données. Par profil intensionnel, nous entendons la représentation formelle d'un ensemble d'étiquettes extraites du schéma du jeu de données, et qui peut être potentiellement enrichi par les descriptions textuelles correspondantes. Cette représentation fournit l'information contextuelle qui permet de calculer la similarité entre les différents profils d'une manière efficace. Nous identifions le chevauchement de différentes profils à l'aide d'une mesure de similarité semantico-fréquentielle qui se base sur un classement calcule par le tf*idf et la mesure cosinus. Les expériences, menées sur tous les jeux de données lies disponibles sur le LOD, montrent que notre méthode permet d'obtenir une précision moyenne de 53% pour un rappel de 100%.Afin d'assurer des profils intensionnels de haute qualité, nous introduisons Datavore- un outil oriente vers les concepteurs de métadonnées qui recommande des termes de vocabulaire a réutiliser dans le processus de modélisation des données. Datavore fournit également les métadonnées correspondant aux termes recommandés ainsi que des propositions des triples utilisant ces termes. L'outil repose sur l’écosystème des Vocabulaires Ouverts Lies (LOV) pour l'acquisition des vocabulaires existants et leurs métadonnées
With the emergence of the Web of Data, most notably Linked Open Data (LOD), an abundance of data has become available on the web. However, LOD datasets and their inherent subgraphs vary heavily with respect to their size, topic and domain coverage, the schemas and their data dynamicity (respectively schemas and metadata) over the time. To this extent, identifying suitable datasets, which meet specific criteria, has become an increasingly important, yet challenging task to supportissues such as entity retrieval or semantic search and data linking. Particularlywith respect to the interlinking issue, the current topology of the LOD cloud underlines the need for practical and efficient means to recommend suitable datasets: currently, only well-known reference graphs such as DBpedia (the most obvious target), YAGO or Freebase show a high amount of in-links, while there exists a long tail of potentially suitable yet under-recognized datasets. This problem is due to the semantic web tradition in dealing with "finding candidate datasets to link to", where data publishers are used to identify target datasets for interlinking.While an understanding of the nature of the content of specific datasets is a crucial prerequisite for the mentioned issues, we adopt in this dissertation the notion of "dataset profile" - a set of features that describe a dataset and allow the comparison of different datasets with regard to their represented characteristics. Our first research direction was to implement a collaborative filtering-like dataset recommendation approach, which exploits both existing dataset topic proles, as well as traditional dataset connectivity measures, in order to link LOD datasets into a global dataset-topic-graph. This approach relies on the LOD graph in order to learn the connectivity behaviour between LOD datasets. However, experiments have shown that the current topology of the LOD cloud group is far from being complete to be considered as a ground truth and consequently as learning data.Facing the limits the current topology of LOD (as learning data), our research has led to break away from the topic proles representation of "learn to rank" approach and to adopt a new approach for candidate datasets identication where the recommendation is based on the intensional profiles overlap between differentdatasets. By intensional profile, we understand the formal representation of a set of schema concept labels that best describe a dataset and can be potentially enriched by retrieving the corresponding textual descriptions. This representation provides richer contextual and semantic information and allows to compute efficiently and inexpensively similarities between proles. We identify schema overlap by the help of a semantico-frequential concept similarity measure and a ranking criterion based on the tf*idf cosine similarity. The experiments, conducted over all available linked datasets on the LOD cloud, show that our method achieves an average precision of up to 53% for a recall of 100%. Furthermore, our method returns the mappings between the schema concepts across datasets, a particularly useful input for the data linking step.In order to ensure a high quality representative datasets schema profiles, we introduce Datavore| a tool oriented towards metadata designers that provides rankedlists of vocabulary terms to reuse in data modeling process, together with additional metadata and cross-terms relations. The tool relies on the Linked Open Vocabulary (LOV) ecosystem for acquiring vocabularies and metadata and is made available for the community
APA, Harvard, Vancouver, ISO, and other styles
3

Ammous, Karim. "Compression par profilage du code Java compilé pour les systèmes embarqués." Valenciennes, 2007. http://ged.univ-valenciennes.fr/nuxeo/site/esupversions/a56319aa-b36f-46ed-b617-a1464a995056.

Full text
Abstract:
Les systèmes embarqués sont caractérisés par des ressources matérielles réduites. Bien que ces ressources ne cessent de s’étendre, elles restent tout de même insuffisantes. L’espace mémoire est l’une des ressources les plus critiques. La compression du code dédié aux systèmes embarqués représente une solution intéressante pour réduire l’encombrement mémoire. Notre travail de recherche se focalise sur la compression du code Java sous format de fichiers class Java. Notre contribution consiste à concevoir et mettre en œuvre un système basé sur un profiler pour guider la compression des fichiers class Java. Ce profiler permet d'établir une stratégie de compression efficace offrant le meilleur taux de compression en tenant compte des caractéristiques du code en entrée et des dépendances entre les techniques de compression. La démarche suit quatre points : 1- l'examen du code Java afin d’en extraire les informations utiles pour le guidage du processus de compression. 2 - l'analyse des dépendances des opérations de compression en terme d'interaction mutuelle des unes avec les autres. Pour ce faire, nous avons mis au point deux méthodes, l'une numérique basée sur l'estimation des performances, l'autre analytique permettant de déterminer la nature des dépendances entre les opérations de compression. 3 - l'évaluation statistique des performances permettant le choix de la stratégie de compression. Nous avons, à ce propos, identifié les paramètres relatifs à chaque opération permettant ainsi leur évaluation. 4- La définition d’heuristiques appropriées pour identifier le chemin de compression le plus efficace dans l'espace de recherche représenté par un graphe orienté
The embedded systems are characterized by reduced hardware resources. Although these resources are constantly increasing, they remain insufficient. The memory space is one of the most critical resources. The compression of the code designed for embedded systems constitutes an interesting solution to reduce the memory footprint. Our study focuses on the compression of Java code represented by Java Class format files. Our contribution consists in designing and implementing a profiler based system in order to guide the compression of Java class files. Our profiler enables us to set up, on the basis of elementary compression techniques, an efficient compression strategy which delivers the best rate of compression. This strategy takes into consideration the features of the code given in input and dependencies between compression techniques. Our approach is based on four points: 1 - the study of the input files in order to extract the necessary information for the guidance of the compression process. 2 - the analysis of compression techniques dependencies in terms of effects produced by each technique to the others. To do so, we developed two methods: one numerical, based on the estimation of performance, the other analytical in order to determine whether there are common points between the different compression methods. 3 - the statistic performance assessment which allows to choose a strategy of compression: we have identified the parameters, related to each method, that enable this assessment. 4 - the definition of heuristics in order to identify the most efficient compression path in a research space characterized by an oriented graph
APA, Harvard, Vancouver, ISO, and other styles
4

Ben, salem Aïcha. "Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD054/document.

Full text
Abstract:
De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur
Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The first part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns offer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the first part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user
APA, Harvard, Vancouver, ISO, and other styles
5

Bakiri, Ali. "Développements informatiques de déréplication et de classification de données spectroscopiques pour le profilage métabolique d’extraits d'algues." Thesis, Reims, 2018. http://www.theses.fr/2018REIMS013.

Full text
Abstract:
L’émergence des méthodes de déréplication comme moyen d’identification rapide des substances naturelles connues implique le développement conjoint d’outils informatiques dédiés au traitement et à l’analyse des données spectrales. Dans ce contexte, les travaux présentés dans ce mémoire ont porté sur le développement de deux méthodes in silico de déréplication par résonance magnétique nucléaire (RMN). La première méthode, DerepCrud, permet l’identification des molécules naturelles à partir d’extraits naturels bruts en utilisant des données de RMN du 13C. La méthode permet de comparer des spectres de RMN 1D du 13C issus de l’analyse d’un extrait naturel à ceux des molécules naturelles répertoriées dans une base de données locale afin de pouvoir identifier les composés majoritaires. La deuxième méthode, BCNet, permet d’exploiter les données RMN bidimensionnelles (HMBC et HSQC) pour la déréplication de molécules naturelles. L’algorithme construit un réseau de corrélations HMBC formés par les signaux appartenant aux différentes molécules constituant un extrait puis isole les signaux de chaque molécule grâce à l’utilisation d’algorithmes de détection de communautés. Les molécules sont enfin identifiées en effectuant une recherche dans la base de données des corrélations HMBC. A la fin de la procédure, la présence des molécules identifiées est confirmée par une comparaison de leurs corrélations HSQC théoriques (aussi issues de la base de données) avec les corrélations expérimentales correspondantes afin de renforcer la précision de l’identification
The emergence of dereplication strategies as a new tool for the rapid identification of the natural products from complex natural extracts has unveiled a great need for cheminformatic tools for the treatment and analysis of the spectral data. The present thesis deals with the development of in silico dereplication methods based on Nuclear Magnetic Resonance (NMR). The first method, DerepCrud, is based on 13C NMR spectroscopy. It identifies the major compounds contained in a crude natural extract without any need for fractionation. The principle of the method is to compare the 13C NMR spectrum of the analyzed mixture to a series of 13C NMR chemical shifts of natural compounds stored in a local database. The second method, BCNet, is designed to exploit the richness of 2D NMR data (HMBC and HSQC) for the dereplication of the natural products. BCNet traces back the network formed by the HMBC correlations of the molecules present in a naturel extract, then isolates the groups of correlations belonging to the individual molecules using a community detection algorithm. The molecules are identified by searching these correlations within a locally constructed database that associates natural product structures and 2D NMR peak positions. Finally, the HSQC correlations of the molecules identified during the previous step are compared to the experimental HSQC correlations of the studied extract in order to increase the quality of identification accuracy
APA, Harvard, Vancouver, ISO, and other styles
6

Lagraa, Sofiane. "New MP-SoC profiling tools based on data mining techniques." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM026/document.

Full text
Abstract:
La miniaturisation des composants électroniques a conduit à l'introduction de systèmes électroniques complexes qui sont intégrés sur une seule puce avec multiprocesseurs, dits Multi-Processor System-on-Chip (MPSoC). La majorité des systèmes embarqués récents sont basées sur des architectures massivement parallèles MPSoC, d'où la nécessité de développer des applications parallèles embarquées. La conception et le développement d'une application parallèle embarquée devient de plus en plus difficile notamment pour les architectures multiprocesseurs hétérogènes ayant différents types de contraintes de communication et de conception tels que le coût du matériel, la puissance et la rapidité. Un défi à relever par de nombreux développeurs est le profilage des applications parallèles embarquées afin qu'ils puissent passer à l'échelle sur plusieurs cœurs possible. Cela est particulièrement important pour les systèmes embarqués de type MPSoC, où les applications doivent fonctionner correctement sur de nombreux cœurs. En outre, la performance d'une application ne s'améliore pas forcément lorsque l'application tourne sur un nombre de cœurs encore plus grand. La performance d'une application peut être limitée en raison de multiples goulot d'étranglement notamment la contention sur des ressources partagées telles que les caches et la mémoire. Cela devient contraignant etune perte de temps pour un développeur de faire un profilage de l'application parallèle embarquée et d'identifier des goulots d'étranglement dans le code source qui diminuent la performance de l'application. Pour surmonter ces problèmes, dans cette thèse, nous proposons trois méthodes automatiques qui détectent les instructions du code source qui ont conduit à une diminution de performance due à la contention et à l'évolutivité des processeurs sur une puce. Les méthodes sont basées sur des techniques de fouille de données exploitant des gigaoctets de traces d'exécution de bas niveau produites par les platesformes MPSoC. Nos approches de profilage permettent de quantifier et de localiser automatiquement les goulots d'étranglement dans le code source afin d'aider les développeurs à optimiserleurs applications parallèles embarquées. Nous avons effectué plusieurs expériences sur plusieurs applications parallèles embarquées. Nos expériences montrent la précision des techniques proposées, en quantifiant et localisant avec précision les hotspots dans le code source
Miniaturization of electronic components has led to the introduction of complex electronic systems which are integrated onto a single chip with multiprocessors, so-called Multi-Processor System-on-Chip (MPSoC). The majority of recent embedded systems are based on massively parallel MPSoC architectures, hence the necessity of developing embedded parallel applications. Embedded parallel application design becomes more challenging: It becomes a parallel programming for non-trivial heterogeneous multiprocessors with diverse communication architectures and design constraints such as hardware cost, power, and timeliness. A challenge faced by many developers is the profiling of embedded parallel applications so that they can scale over more and more cores. This is especially critical for embedded systems powered by MPSoC, where ever demanding applications have to run smoothly on numerous cores, each with modest power budget. Moreover, application performance does not necessarily improve as more cores are added. Application performance can be limited due to multiple bottlenecks including contention for shared resources such as caches and memory. It becomes time consuming for a developer to pinpoint in the source code the bottlenecks decreasing the performance. To overcome these issues, in this thesis, we propose a fully three automatic methods which detect the instructions of the code which lead to a lack of performance due to contention and scalability of processors on a chip. The methods are based on data mining techniques exploiting gigabytes of low level execution traces produced by MPSoC platforms. Our profiling approaches allow to quantify and pinpoint, automatically the bottlenecks in source code in order to aid the developers to optimize its embedded parallel application. We performed several experiments on several parallel application benchmarks. Our experiments show the accuracy of the proposed techniques, by quantifying and pinpointing the hotspot in the source code
APA, Harvard, Vancouver, ISO, and other styles
7

Brunie, Hugo. "Optimisation des allocations de données pour des applications du Calcul Haute Performance sur une architecture à mémoires hétérogènes." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0014/document.

Full text
Abstract:
Le Calcul Haute Performance, regroupant l’ensemble des acteurs responsables de l’amélioration des performances de calcul des applications scientifiques sur supercalculateurs, s’est donné pour objectif d’atteindre des performances exaflopiques. Cette course à la performance se caractérise aujourd’hui par la fabrication de machines hétérogènes dans lesquelles chaque composant est spécialisé. Parmi ces composants, les mémoires du système se spécialisent, et la tendance va vers une architecture composée de plusieurs mémoires aux caractéristiques complémentaires. La question se pose alors de l’utilisation de ces nouvelles machines dont la performance pratique dépend du placement des données de l’application sur les différentes mémoires. Dans cette thèse, nous avons développé une formulation du problème d’allocation de donnée sur une Architecture à Mémoires Hétérogènes. Dans cette formulation, nous avons fait apparaître le bénéfice que pourrait apporter une analyse temporelle du problème, parce que de nombreux travaux reposaient uniquement sur une approche spatiale. À partir de cette formulation, nous avons développé un outil de profilage hors ligne pour approximer les coefficients de la fonction objective afin de résoudre le problème d’allocation et d’optimiser l’allocation des données sur une architecture composée deux de mémoires principales aux caractéristiques complémentaires. Afin de réduire la quantité de modifications nécessaires pour prendre en compte la stratégie d’allocation recommandée par notre boîte à outils, nous avons développé un outil capable de rediriger automatiquement les allocations de données à partir d’un minimum d’instrumentation dans le code source. Les gains de performances obtenus sur des mini-applications représentatives des applications scientifiques codées par la communauté permet d’affirmer qu’une allocation intelligente des données est nécessaire pour bénéficier pleinement de ressources mémoires hétérogènes. Sur certaines tailles de problèmes, le gain entre un placement naïf est une allocation instruite peut atteindre un facteur ×3.75
High Performance Computing, which brings together all the players responsible for improving the computing performance of scientific applications on supercomputers, aims to achieve exaflopic performance. This race for performance is today characterized by the manufacture of heterogeneous machines in which each component is specialized. Among these components, system memories specialize too, and the trend is towards an architecture composed of several memories with complementary characteristics. The question arises then of these new machines use whose practical performance depends on the application data placement on the different memories. Compromising code update against performance is challenging. In this thesis, we have developed a data allocation on Heterogeneous Memory Architecture problem formulation. In this formulation, we have shown the benefit of a temporal analysis of the problem, because many studies were based solely on a spatial approach this result highlight their weakness. From this formulation, we developed an offline profiling tool to approximate the coefficients of the objective function in order to solve the allocation problem and optimize the allocation of data on a composite architecture composed of two main memories with complementary characteristics. In order to reduce the amount of code changes needed to execute an application according to our toolbox recommended allocation strategy, we have developed a tool that can automatically redirect data allocations from a minimum source code instrumentation. The performance gains obtained on mini-applications representative of the scientific applications coded by the community make it possible to assert that intelligent data allocation is necessary to fully benefit from heterogeneous memory resources. On some problem sizes, the gain between a naive data placement strategy, and an educated data allocation one, can reach up to ×3.75 speedup
APA, Harvard, Vancouver, ISO, and other styles
8

Haine, Christopher. "Kernel optimization by layout restructuring." Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0639/document.

Full text
Abstract:
Bien penser la structuration de données est primordial pour obtenir de hautes performances, alors que les processeurs actuels perdent un temps considérable à attendre la complétion de transactions mémoires. En particulier les localités spatiales et temporelles de données doivent être optimisées.Cependant, les transformations de structures de données ne sont pas proprement explorées par les compilateurs, en raison de la difficulté que pose l'évaluation de performance des transformations potentielles. De plus,l'optimisation des structures de données est chronophage, sujette à erreur etles transformations à considérer sont trop nombreuses pour être implémentées à la main dans l'optique de trouver une version de code efficace.On propose de guider les programmeurs à travers le processus de restructuration de données grace à un retour utilisateur approfondi, tout d'abord en donnant une description multidimensionnelle de la structure de donnée initiale, faite par une analyse de traces mémoire issues du binaire de l'application de l'utilisateur, dans le but de localiser des problèmes de stride au niveau instruction, indépendemment du langage d'entrée. On choisit de focaliser notre étude sur les transformations de structure de données, traduisibles dans un formalisme proche du C pour favoriser la compréhension de l'utilisateur, que l'on applique et évalue sur deux cas d'étude qui sont des applications réelles,à savoir une simulation d'ondes cardiaques et une simulation de chromodynamique quantique sur réseau, avec différents jeux d'entrées. La prédiction de performance de différentes transformations est conforme à 5% près aux versions réécrites à la main
Careful data layout design is crucial for achieving high performance, as nowadays processors waste a considerable amount of time being stalled by memory transactions, and in particular spacial and temporal locality have to be optimized. However, data layout transformations is an area left largely unexplored by state-of-the-art compilers, due to the difficulty to evaluate the possible performance gains of transformations. Moreover, optimizing data layout is time-consuming, error-prone, and layout transformations are too numerous tobe experimented by hand in hope to discover a high performance version. We propose to guide application programmers through data layout restructuring with an extensive feedback, firstly by providing a comprehensive multidimensional description of the initial layout, built via analysis of memory traces collected from the application binary textit {in fine} aiming at pinpointing problematic strides at the instruction level, independently of theinput language. We choose to focus on layout transformations,translatable to C-formalism to aid user understanding, that we apply and assesson case study composed of two representative multithreaded real-lifeapplications, a cardiac wave simulation and lattice QCD simulation, with different inputs and parameters. The performance prediction of different transformations matches (within 5%) with hand-optimized layout code
APA, Harvard, Vancouver, ISO, and other styles
9

Jouravel, Glorianne. "Stratégies innovantes pour une valorisation d’extraits de plantes en cosmétique : Mise en oeuvre d’un outil de profilage métabolique et recherche de nouvelles activités biologiques." Thesis, Orléans, 2018. http://www.theses.fr/2018ORLE2017.

Full text
Abstract:
La cosmétique valorise des extraits de plantes en les intégrant dans des produits de soin. Ces extraits constituent les ingrédients actifs de la formule cosmétique. Les plantes sont diverses, riches et contiennent de nombreux composés d’intérêt biologique. La phytochimie s’intéresse à décrire le contenu métabolique d’extraits de plantes. Mais la caractérisation moléculaire de ces matrices complexes reste un défi majeur aujourd’hui. En effet, les étapes de traitements de données sont longues et laborieuses. Un outil de profilage métabolique, GAINS, a ainsi été développé afin de traiter de façon automatisée les données issues d’analyses en chromatographie liquide couplée à la spectrométrie de masse haute résolution. Il constitue un support au phytochimiste car le traitement automatisé des données permet de gagner du temps par rapport à un traitement manuel. Cet outil associé à une vaste base de données de produits naturels permet d’attribuer des candidats potentiels aux pics détectés. GAINS fait aussi appel à un module de fragmentation in silico afin d’étayer les propositions de candidats. Cela permet de comparer le spectre de fragmentation modélisé des candidats avec le spectre de fragmentation expérimental.L’ensemble des études phytochimiques réalisées pour identifier ou isoler des composés va de pair avec l’étude du potentiel d’effet biologique des extraits sur la peau, organe ciblé par les cosmétiques. Cela sert à découvrir les actions bénéfiques que peut avoir l’extrait. En connaissant le contenu phytochimique, on peut expliquer et rationaliser les tests d’activités biologiques. Le développement d’un actif anti-âge à partir de la salicaire, une plante de la région Centre-Val de Loire, en est l’exemple
The cosmetic field valorizes plant extracts by integrating them in care products. These extracts constitute the active ingredients of the cosmetic formulation. Plants are diverse, rich and contain numerous compounds of biological interest. Phytochemistry is a way to describe the metabolic content of plant extracts. But molecular characterization of these complex matrices remains a major challenge nowadays. Indeed,steps of data treatment are time-consuming and laborious. In this way, a tool of metabolic profiling, GAINS, has been developed in order to treat in an automatized way data from analyses performed in liquid chromatography coupled with high-resolution mass spectrometry. It constitutes a real support for phytochemists because automatized data treatment allows gaining time compared to manual treatment. This tool, associated with a large database of natural compounds make possible to assign potential candidates to detected peaks. GAINS appeals a module of in silico fragmentation for holding candidates assignments up.This permits to compare modeled spectrum of fragmentation of candidates with experimental spectrum off ragmentation.The whole set of phytochemical studies realized to identify or isolate compounds goes hand in hand with the study of potential biological effects of extracts to the skin, targeted organ by skin-care products. This allows the discovery of beneficial actions that the extract could have. By knowing the phytochemical content, it is possible to explain and rationalize assays about biological activities. The development of an anti-aging ingredient from purple loosestrife, a plant occurring in the region Centre-Val de Loire, is an example of it
APA, Harvard, Vancouver, ISO, and other styles
10

Awwad, Tarek. "Context-aware worker selection for efficient quality control in crowdsourcing." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEI099/document.

Full text
Abstract:
Le crowdsourcing est une technique qui permet de recueillir une large quantité de données d'une manière rapide et peu onéreuse. Néanmoins, La disparité comportementale et de performances des "workers" d’une part et la variété en termes de contenu et de présentation des tâches par ailleurs influent considérablement sur la qualité des contributions recueillies. Par conséquent, garder leur légitimité impose aux plateformes de crowdsourcing de se doter de mécanismes permettant l’obtention de réponses fiables et de qualité dans un délai et avec un budget optimisé. Dans cette thèse, nous proposons CAWS (Context AwareWorker Selection), une méthode de contrôle de la qualité des contributions dans le crowdsourcing visant à optimiser le délai de réponse et le coût des campagnes. CAWS se compose de deux phases, une phase d’apprentissage opérant hors-ligne et pendant laquelle les tâches de l’historique sont regroupées de manière homogène sous forme de clusters. Pour chaque cluster, un profil type optimisant la qualité des réponses aux tâches le composant, est inféré ; la seconde phase permet à l’arrivée d’une nouvelle tâche de sélectionner les meilleurs workers connectés pour y répondre. Il s’agit des workers dont le profil présente une forte similarité avec le profil type du cluster de tâches, duquel la tâche nouvellement créée est la plus proche. La seconde contribution de la thèse est de proposer un jeu de données, appelé CrowdED (Crowdsourcing Evaluation Dataset), ayant les propriétés requises pour, d’une part, tester les performances de CAWS et les comparer aux méthodes concurrentes et d’autre part, pour tester et comparer l’impact des différentes méthodes de catégorisation des tâches de l’historique (c-à-d, la méthode de vectorisation et l’algorithme de clustering utilisé) sur la qualité du résultat, tout en utilisant un jeu de tâches unique (obtenu par échantillonnage), respectant les contraintes budgétaires et gardant les propriétés de validité en terme de dimension. En outre, CrowdED rend possible la comparaison de méthodes de contrôle de qualité quelle que soient leurs catégories, du fait du respect d’un cahier des charges lors de sa constitution. Les résultats de l’évaluation de CAWS en utilisant CrowdED comparés aux méthodes concurrentes basées sur la sélection de workers, donnent des résultats meilleurs, surtout en cas de contraintes temporelles et budgétaires fortes. Les expérimentations réalisées avec un historique structuré en catégories donnent des résultats comparables à des jeux de données où les taches sont volontairement regroupées de manière homogène. La dernière contribution de la thèse est un outil appelé CREX (CReate Enrich eXtend) dont le rôle est de permettre la création, l’extension ou l’enrichissement de jeux de données destinés à tester des méthodes de crowdsourcing. Il propose des modules extensibles de vectorisation, de clusterisation et d’échantillonnages et permet une génération automatique d’une campagne de crowdsourcing
Crowdsourcing has proved its ability to address large scale data collection tasks at a low cost and in a short time. However, due to the dependence on unknown workers, the quality of the crowdsourcing process is questionable and must be controlled. Indeed, maintaining the efficiency of crowdsourcing requires the time and cost overhead related to this quality control to stay low. Current quality control techniques suffer from high time and budget overheads and from their dependency on prior knowledge about individual workers. In this thesis, we address these limitation by proposing the CAWS (Context-Aware Worker Selection) method which operates in two phases: in an offline phase, the correlations between the worker declarative profiles and the task types are learned. Then, in an online phase, the learned profile models are used to select the most reliable online workers for the incoming tasks depending on their types. Using declarative profiles helps eliminate any probing process, which reduces the time and the budget while maintaining the crowdsourcing quality. In order to evaluate CAWS, we introduce an information-rich dataset called CrowdED (Crowdsourcing Evaluation Dataset). The generation of CrowdED relies on a constrained sampling approach that allows to produce a dataset which respects the requester budget and type constraints. Through its generality and richness, CrowdED helps also in plugging the benchmarking gap present in the crowdsourcing community. Using CrowdED, we evaluate the performance of CAWS in terms of the quality, the time and the budget gain. Results shows that automatic grouping is able to achieve a learning quality similar to job-based grouping, and that CAWS is able to outperform the state-of-the-art profile-based worker selection when it comes to quality, especially when strong budget ant time constraints exist. Finally, we propose CREX (CReate Enrich eXtend) which provides the tools to select and sample input tasks and to automatically generate custom crowdsourcing campaign sites in order to extend and enrich CrowdED
APA, Harvard, Vancouver, ISO, and other styles
11

Diallo, Mouhamadou Saliou. "Découverte de règles de préférences contextuelles : application à la construction de profils utilisateurs." Thesis, Tours, 2015. http://www.theses.fr/2015TOUR4052/document.

Full text
Abstract:
L’utilisation de préférences suscite un intérêt croissant pour personnaliser des réponses aux requêtes et effectuer des recommandations ciblées. Pourtant, la construction manuelle de profils de préférences reste à la fois complexe et consommatrice de temps. Dans ce contexte, nous présentons dans cette thèse une nouvelle méthode automatique d’extraction de préférences basée sur des techniques de fouille de données. L’approche que nous proposons est constituée de deux phases : (1) une phase d’extraction de toutes les règles de préférences contextuelles intéressantes et (2) une phase de construction du profil utilisateur. A la fin de la première phase, nous constatons qu’il y a des règles redondantes voir superflues ; la seconde phase permet d’éliminer les règles superflues afin d’avoir un profil concis et consistant. Dans notre approche, un profil utilisateur est constitué de cet ensemble de règles de préférences contextuelles résultats de la seconde phase. La consistance garantit que les règles de préférences spécifiant les profils sont en accord avec un grand nombre de préférences utilisateur et contredisent un petit nombre d’entre elles. D’autre part, la concision implique que les profils sont constitués d’un petit nombre de règles de préférences. Nous avons aussi proposé quatre méthodes de prédiction qui utilisent les profils construits. Nous avons validé notre approche sur une base de données de films construite à partir de MovieLens et IMDB. La base de données contient 3 881 films notés par 6 040 utilisateurs. Ces derniers ont attribué 800 156 notes. Les résultats de ces expériences démontrent que la concision des profils utilisateurs est contrôlée par le seuil d’accord minimal et que même avec une forte réduction du nombre de règles, les qualités de prédiction des profils restent à un niveau acceptable. En plus des expérimentations montrant la qualité de prédiction de notre approche, nous avons montré également que les performances de notre approche peuvent rivaliser avec les qualités de prédiction de certaines méthodes de l’état de l’art, en particulier SVMRank
The use of preferences arouses a growing interest to personalize response to requests and making targeted recommandations. Nevertheless, manual construction of preferences profiles remains complex and time-consuming. In this context, we present in this thesis a new automatic method for preferences elicitation based on data mining techniques. Our proposal is a two phase algorithm : (1) Extracting all contextual preferences rules from a set of user preferences and (2) Building user profile. At the end of the first phase, we notice that there is to much preference rules which satisfy the fixed constraints then in the second phase we eliminate the superfluous preferences rules. In our approach a user profile is constituted by the set of contextual preferences rules resulting of the second phase. A user profile must satisfy conciseness and soundness properties. The soundness property guarantees that the preference rules specifying the profiles are in agreement with a large set of the user preferences, and contradict a small number of them. On the other hand, conciseness implies that profiles are small sets of preference rules. We also proposed four predictions methods which use the extracted profiles. We validated our approach on a set of real-world movie rating datasets built from MovieLens and IMDB. The whole movie rating database consists of 800,156 votes from 6,040 users about 3,881 movies. The results of these experiments demonstrates that the conciseness of user profiles is controlled by the minimal agreement threshold and that even with strong reduction, the soundness of the profile remains at an acceptable level. These experiment also show that predictive qualities of some of our ranking strategies outperform SVMRank in several situations
APA, Harvard, Vancouver, ISO, and other styles
12

Caigny, Arno de. "Innovation in customer scoring for the financial services industry." Thesis, Lille, 2019. http://www.theses.fr/2019LIL1A011.

Full text
Abstract:
Cette thèse améliore la notation des clients. L’évaluation des clients est importante pour les entreprises dans leurs processus de prise de décision parce qu'elle aide à résoudre des problèmes de gestion clés tels que le choix des clients à cibler pour une campagne de marketing ou l'analyse des clients qui sont susceptibles de quitter l'entreprise. La recherche effectuée dans le cadre de cette thèse apporte plusieurs contributions dans trois domaines de la littérature sur la notation des clients. Premièrement, de nouvelles sources de données sont utilisées pour évaluer les clients. Deuxièmement, la méthodologie pour passer des données aux décisions est améliorée. Troisièmement, la prédiction des événements courants du client est proposée comme une nouvelle application de la notation des clients. Tous les résultats présentés dans cette thèse sont issus de données réelles et sont non seulement d'une grande valeur académique, mais aussi d'une grande pertinence commerciale
This dissertation improves customer scoring. Customer scoring is important for companies in their decision making processes because it helps to solve key managerial issues such as the decision of which customers to target for a marketing campaign or the assessment of customer that are likely to leave the company. The research in this dissertation makes several contributions in three areas of the customer scoring literature. First, new sources of data are used to score customers. Second, methodology to go from data to decisions is improved. Third, customer life event prediction is proposed as a new application of customer scoring
APA, Harvard, Vancouver, ISO, and other styles
13

Chamsi, Abu Quba Rana. "On enhancing recommender systems by utilizing general social networks combined with users goals and contextual awareness." Thesis, Lyon 1, 2015. http://www.theses.fr/2015LYO10061/document.

Full text
Abstract:
Nous sommes amenés chaque jour à prendre un nombre important de décisions : quel nouveau livre lire ? Quel film regarder ce soir ou où aller ce week-end ? De plus en plus, nous utilisons les ressources en ligne pour nous aider à prendre des décisions. Comme la prise de décision est assistée par le domaine en ligne, l'utilisation de systèmes de recommandation est devenue essentielle dans la vie quotidienne. Dans le même temps, les réseaux sociaux sont devenus une partie indispensable de ce processus ; partout dans le monde on les utilise quotidiennement pour récupérer des données de personne et de sources d'information en qui on a confiance. Quand les internautes passent du temps sur les réseaux sociaux, ils laissent de précieuses informations sur eux-mêmes. Cela a attiré l'attention des chercheurs et les professionnels de nombreux domaines académiques et commerciaux. Comme le domaine de la recommandation est un domaine qui a assisté à des changements de grande ampleur attribuable à des réseaux sociaux, il y a un intérêt évident pour les systèmes de recommandation sociale. Cependant, dans la littérature de ce domaine, nous avons constaté que de nombreux systèmes de recommandation sociale ont été évalués en utilisant des réseaux sociaux spécialisés comme Epinions, Flixter et d'autres types des réseaux sociaux de recommandation, qui tendent à être composées d'utilisateurs, d'articles, de notes et de relations. Ces solutions ne peuvent pas être étendues directement à des réseaux sociaux à usage général (GPSNs) comme Facebook et Twitter, qui sont des réseaux sociaux ouverts où les utilisateurs peuvent réaliser une variété d'actions utiles pour l'aide à la recommandation
We are surrounded by decisions to take, what book to read next? What film to watch this night and in the week-end? As the number of items became tremendous the use of recommendation systems became essential in daily life. At the same time social network become indispensable in people’s daily lives; people from different countries and age groups use them on a daily basis. While people are spending time on social networks, they are leaving valuable information about them attracting researchers’ attention. Recommendation is one domain that has been affected by the social networks widespread; the result is the social recommenders’ studies. However, in the literature we’ve found that most of the social recommenders were evaluated over Epinions, flixter and other type of domains based recommender social networks, which are composed of (users, items, ratings and relations). The proposed solutions can’t be extended directly to General Purpose Social Networks (GPSN) like Facebook and Twitter which are open social networks where users can do a variety of useful actions that can be useful for recommendation, but as they can’t rate items, these information are not possible to be used in recommender systems! Moreover, evaluations are based on the known metrics like MAE, and RMSE. This can’t guarantee the satisfaction of users, neither the good quality of recommendation
APA, Harvard, Vancouver, ISO, and other styles
14

Ben, Ticha Sonia. "Recommandation personnalisée hybride." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0168/document.

Full text
Abstract:
Face à la surabondance des ressources et de l'information sur le net, l'accès aux ressources pertinentes devient une tâche fastidieuse pour les usagers de la toile. Les systèmes de recommandation personnalisée comptent parmi les principales solutions qui assistent l'utilisateur en filtrant les ressources, pour ne lui proposer que celles susceptibles de l’intéresser. L’approche basée sur l’observation du comportement de l’utilisateur à partir de ses interactions avec le e-services est appelée analyse des usages. Le filtrage collaboratif et le filtrage basé sur le contenu sont les principales techniques de recommandations personnalisées. Le filtrage collaboratif exploite uniquement les données issues de l’analyse des usages alors que le filtrage basé sur le contenu utilise en plus les données décrivant le contenu des ressources. Un système de recommandation hybride combine les deux techniques de recommandation. L'objectif de cette thèse est de proposer une nouvelle technique d'hybridation en étudiant les bénéfices de l'exploitation combinée d'une part, des informations sémantiques des ressources à recommander, avec d'autre part, le filtrage collaboratif. Plusieurs approches ont été proposées pour l'apprentissage d'un nouveau profil utilisateur inférant ses préférences pour l’information sémantique décrivant les ressources. Pour chaque approche proposée, nous traitons le problème du manque de la densité des données et le problème du passage à l’échelle. Nous montrons également, de façon empirique, un gain au niveau de la précision des recommandations par rapport à des approches purement collaboratives ou purement basées sur le contenu
Face to the ongoing rapid expansion of the Internet, user requires help to access to items that may interest her or him. A personalized recommender system filters relevant items from huge catalogue to particular user by observing his or her behavior. The approach based on observing user behavior from his interactions with the website is called usage analysis. Collaborative Filtering and Content-Based filtering are the most widely used techniques in personalized recommender system. Collaborative filtering uses only data from usage analysis to build user profile, while content-based filtering relies in addition on semantic information of items. Hybrid approach is another important technique, which combines collaborative and content-based methods to provide recommendations. The aim of this thesis is to present a new hybridization approach that takes into account the semantic information of items to enhance collaborative recommendations. Several approaches have been proposed for learning a new user profile inferring preferences for semantic information describing items. For each proposed approach, we address the sparsity and the scalability problems. We prove also, empirically, an improvement in recommendations accuracy against collaborative filtering and content-based filtering
APA, Harvard, Vancouver, ISO, and other styles
15

Chouiref, Zahira. "Contribution à l'étude de l'optimisation de requêtes de services Web : une approche centrée utilisateur." Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2017. http://www.theses.fr/2017ESMA0016.

Full text
Abstract:
Durant la dernière décennie, l’évolution du Web a été marquée par une forte croissance des services publiés et qui s’est accompagnée d’une explosion considérable du nombre d’usagers dont les profils et contextes sont divers et variés. Les travaux présentés dans cette thèse traitent de l’optimisation de requêtes de services Web où le profil/contexte de l’utilisateur joue un rôle central. Il s’agit de sélectionner un service ou une combinaison de services pertinents parmi une masse importante de candidats compétitifs et capables de réaliser une tâche requise. Ces services candidats devant répondre au mieux aux exigences demandées par l’utilisateur selon un ensemble de critères non-fonctionnels. Dans notre approche, les critères non-fonctionnels considérés sont tous associés aux préférences du demandeur de service. Un intérêt plus important est alors porté à l’utilisateur qui se trouve au coeur du processus de sélection. La diversité du profil et du contexte de l’utilisateur, et également ceux des services cibles,rend ce processus encore plus complexe. Notre étude se focalise, dans un premier lieu,sur l’analyse des différentes approches de sélection de services Web existant dans la littérature. Nous mettons, notamment, en évidence leur contribution à la résolution des problèmes inhérents à la sélection des meilleurs services dans le but de satisfaire les critères non-fonctionnels formulés dans la requête. Dans un second temps, notre intérêt s’est porté sur la modélisation de spécification de l’offre et la demande de services,de leurs contextes et profils ainsi que les deux classes de préférences utilisateurs :explicites et implicites. Enfin, nous proposons une nouvelle famille d’approches d’optimisation qui intègre une stratégie de reformulation de requêtes par introduction des préférences implicites. Le concept clé de ces approches est un mécanisme d’inférence flou permettant d’accomplir un raisonnement déductif sur les informations liées au profil et contexte de l’utilisateur. Le principe consiste à combiner les deux familles de préférences utilisateur, tout en considérant conjointement les profils et les contextes des services et de l’utilisateur. L’application de la théorie des ensembles flous dans l’optimisation des requêtes à préférences des utilisateurs, en intégrant un module de raisonnement sur les informations liées à l’utilisateur, s’avère d’un intérêt majeur dans l’amélioration des qualités des résultats retournés. Nous présentons à la fin de l’étude une série d’expérimentations pour montrer la validité et la pertinence des approches proposées
The internet has completely transformed the way how we communicate (access toinformation). Its evolution was marked by strong growth of published services which has been accompanied by a large explosion in the number of users and a diversity oftheir profiles and their contexts.The work presented in this thesis deal with the adaptive optimization of Web services queries to user needs. This problem is to select a service or a combination of relevant services from a collection of candidates able to perform a required task. These candidate services must meet the requirements requested by the user, the selection makes his/herchoice from non-functional criteria. In our approach, non-functional criteria considered are all associated with preferences of service requester. A significant interest is therefore carried to the user who is at the core of the selection system. This selection is generally considered a complex task because of the diversity of profile and context of the service,which it is performed.Our study focuses mainly on the analysis of different service selection approaches.We especially highlight their contribution to solving the problems inherent in selecting the best services in order to meet the non-functional parameters of the request. Second, our interest has focused on modeling the specification of supply and demand for services, their context and profile as well as the two families preferences : explicit and implicit. Finally, we propose a novel optimization approach that integrates a query reformulation strategy by introducing implicit preferences based on the fuzzy inference process. The idea is to combine the two families of preferences required by the user with consideration of profiles and contexts of services and the user simultaneously. The application of fuzzy set theory in the optimization of preference query of customers by integrating reasoning module on information related to the user leads of great interest in improving the quality of results. We present at the end a set of experiments to demonstrate the validity and relevance of the proposed approach
APA, Harvard, Vancouver, ISO, and other styles
16

Servajean, Maximilien. "Recommandation diversifiée et distribuée pour les données scientifiques." Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20216/document.

Full text
Abstract:
Dans de nombreux domaines, les nouvelles technologies d'acquisition de l'information ou encore de mesure (e.g. serres de phénotypage robotisées) ont engendré une création phénoménale de données. Nous nous appuyons en particulier sur deux cas d'application réels: les observations de plantes en botanique et les données de phénotypage en biologie. Cependant, nos contributions peuvent être généralisées aux données du Web. Par ailleurs, s'ajoute à la quantité des données leur distribution. Chaque utilisateur stocke en effet ses données sur divers sites hétérogènes (e.g. ordinateurs personnels, serveurs, cloud), données qu'il souhaite partager. Que ce soit pour les observations de botanique ou pour les données de phénotypage en biologie, des solutions collaboratives, comprenant des outils de recherche et de recommandation distribués, bénéficieraient aux utilisateurs. L'objectif général de ce travail est donc de définir un ensemble de techniques permettant le partage et la découverte de données, via l'application d'approches de recherche et de recommandation, dans un environnement distribué (e.g. sites hétérogènes).Pour cela, la recherche et la recommandation permettent aux utilisateurs de se voir présenter des résultats, ou des recommandations, à la fois pertinents par rapport à une requête qu'ils auraient soumise et par rapport à leur profil. Les techniques de diversification permettent de présenter aux utilisateurs des résultats offrant une meilleure nouveauté tout en évitant de les lasser par des contenus redondants et répétitifs. Grâce à la diversité, une distance entre toutes les recommandations est en effet introduite afin que celles-ci soient les plus représentatives possibles de l'ensemble des résultats pertinents. Peu de travaux exploitent la diversité des profils des utilisateurs partageant les données. Dans ce travail de thèse, nous montrons notamment que dans certains scénarios, diversifier les profils des utilisateurs apporte une nette amélioration en ce qui concerne la qualité des résultats~: des sondages montrent que dans plus de 75% des cas, les utilisateurs préfèrent la diversité des profils à celle des contenus. Par ailleurs, afin d'aborder les problèmes de distribution des données sur des sites hétérogènes, deux approches sont possibles. La première, les réseaux P2P, consiste à établir des liens entre chaque pair (noeud du réseau): étant donné un pair p, ceux avec lesquels il a établi un lien représentent son voisinage. Celui-ci est utilisé lorsque p soumet une requête q, pour y répondre. Cependant, dans les solutions de l'état de l'art, la redondance des profils des pairs présents dans les différents voisinages limitent la capacité du système à retrouver des résultats pertinents sur le réseau, étant donné les requêtes soumises par les utilisateurs. Nous montrons, dans ce travail, qu'introduire de la diversité dans le calcul du voisinage, en augmentant la couverture, permet un net gain en termes de qualité. En effet, en tenant compte de la diversité, chaque pair du voisinage a une plus forte probabilité de retourner des résultats nouveaux à l'utilisateur courant: lorsqu'une requête est soumise par un pair, notre approche permet de retrouver jusqu'à trois fois plus de bons résultats sur le réseau. La seconde approche de la distribution est le multisite. Généralement, dans les solutions de l'état de l'art, les sites sont homogènes et représentés par de gros centres de données. Dans notre contexte, nous proposons une approche permettant la collaboration de sites hétérogènes, tels que de petits serveurs d'équipe, des ordinateurs personnels ou de gros sites dans le cloud. Un prototype est issu de cette contribution. Deux versions du prototype ont été réalisées afin de répondre aux deux cas d'application, en s'adaptant notamment aux types des données
In many fields, novel technologies employed in information acquisition and measurement (e.g. phenotyping automated greenhouses) are at the basis of a phenomenal creation of data. In particular, we focus on two real use cases: plants observations in botany and phenotyping data in biology. Our contributions can be, however, generalized to Web data. In addition to their huge volume, data are also distributed. Indeed, each user stores their data in many heterogeneous sites (e.g. personal computers, servers, cloud); yet he wants to be able to share them. In both use cases, collaborative solutions, including distributed search and recommendation techniques, could benefit to the user.Thus, the global objective of this work is to define a set of techniques enabling sharing and discovery of data in heterogeneous distributed environment, through the use of search and recommendation approaches.For this purpose, search and recommendation allow users to be presented sets of results, or recommendations, that are both relevant to the queries submitted by the users and with respect to their profiles. Diversification techniques allow users to receive results with better novelty while avoiding redundant and repetitive content. By introducing a distance between each result presented to the user, diversity enables to return a broader set of relevant items.However, few works exploit profile diversity, which takes into account the users that share each item. In this work, we show that in some scenarios, considering profile diversity enables a consequent increase in results quality: surveys show that in more than 75% of the cases, users would prefer profile diversity to content diversity.Additionally, in order to address the problems related to data distribution among heterogeneous sites, two approaches are possible. First, P2P networks aim at establishing links between peers (nodes of the network): creating in this way an overlay network, where peers directly connected to a given peer p are known as his neighbors. This overlay is used to process queries submitted by each peer. However, in state of the art solutions, the redundancy of the peers in the various neighborhoods limits the capacity of the system to retrieve relevant items on the network, given the queries submitted by the users. In this work, we show that introducing diversity in the computation of the neighborhood, by increasing the coverage, enables a huge gain in terms of quality. By taking into account diversity, each peer in a given neighborhood has indeed, a higher probability to return different results given a keywords query compared to the other peers in the neighborhood. Whenever a query is submitted by a peer, our approach can retrieve up to three times more relevant items than state of the art solutions.The second category of approaches is called multi-site. Generally, in state of the art multi-sites solutions, the sites are homogeneous and consist in big data centers. In our context, we propose an approach enabling sharing among heterogeneous sites, such as small research teams servers, personal computers or big sites in the cloud. A prototype regrouping all contributions have been developed, with two versions addressing each of the use cases considered in this thesis
APA, Harvard, Vancouver, ISO, and other styles
17

El, Sarraj Lama. "Exploitation d'un entrepôt de données guidée par des ontologies : application au management hospitalier." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM4331.

Full text
Abstract:
Cette recherche s'inscrit dans le domaine de la personnalisation d'Entrepôt de Données (ED) et concerne l'aide à l'exploitation d'un ED. Nous intéressons à l'assistance à apporter à un utilisateur lors d'une analyse en ligne, dans son utilisation de ressources d'exploitation existantes. Le domaine d'application concerné est la gestion hospitalière, dans le cadre de la nouvelle gouvernance, et en se limitant au périmètre du Programme de Médicalisation des Systèmes d'Information (PMSI). Cette recherche a été supportée par l'Assistance Publique des Hôpitaux de Marseille (APHM). L'approche retenue pour développer une telle assistance à l'utilisateur d'ED est sémantique et guidée par l'usage d'ontologies. Le système d'assistance mettant en oeuvre cette approche, nommé Ontologies-based Personalization System (OPS), s'appuie sur une Base de Connaissances (BC) exploitée par un moteur de personnalisation. La BC est composée des trois ontologies : de domaine, de l'ED et des ressources. Le moteur de personnalisation permet d'une part une recherche personnalisée de ressources d'exploitation de l'ED en s'appuyant sur le profil de l'utilisateur, et d'autre part pour une ressource particulière, une recommandation de ressources complémentaires selon trois stratégies possibles. Afin de valider nos propositions, un prototype du système OPS a été développé avec un moteur de personnalisation a été implémenté en Java et exploitant une base de connaissance constituée des trois ontologies en OWL interconnectées. Nous illustrons le fonctionnement de notre système sur trois scenarii d'expérimentation liés au PMSI et définis avec des experts métiers de l'APHM
This research is situated in the domain of Data Warehouses (DW) personalization and concerns DW assistance. Specifically, we are interested in assisting a user during an online analysis processes to use existing operational resources. The application of this research concerns hospital management, for hospitals governance, and is limited to the scope of the Program of Medicalization of Information Systems (PMSI). This research was supported by the Public Hospitals of Marseille (APHM). Our proposal is a semantic approach based on ontologies. The support system implementing this approach, called Ontology-based Personalization System (OPS), is based on a knowledge base operated by a personalization engine. The knowledge base is composed of three ontologies: a domain ontology, an ontology of the DW structure, and an ontology of resources. The personalization engine allows firstly, a personalized search of resources of the DW based on users profile, and secondly for a particular resource, an expansion of the research by recommending new resources based on the context of the resource. To recommend new resources, we have proposed three possible strategies. To validate our proposal, a prototype of the OPS system was developed, a personalization engine has been implemented in Java. This engine exploit an OWL knowledge composed of three interconnected OWL ontologies. We illustrate three experimental scenarios related to PMSI and defined with APHM domain experts
APA, Harvard, Vancouver, ISO, and other styles
18

Dhomps, Anne-Lise. "Améliorations des méthodes de combinaison des données Argo et altimétrie pour le suivi des variations à long terme de l'océan." Toulouse 3, 2010. http://thesesups.ups-tlse.fr/1299/.

Full text
Abstract:
L'objectif de cette thèse est d'analyser la variabilité océanique en température et salinité sur la période 1993-2008. Pour cela, nous utilisons des données in situ de température et de salinité, et des données satellites de température de surface de l'eau et de hauteur de mer. Plusieurs étapes sont indispensables : créer une base de données solide et cohérente, comparer les jeux de données, puis développer des méthodes de combinaison afin d'assembler les jeux de données. L'intercomparaison des jeux de données Altimétrique et Argo permet dans un premier temps de vérifier la qualité du jeu de données Argo. Le jeu de données Argo permet d'améliorer les comparaisons effectuée par Guinehut et al, (2006) sur la comparaison entre les hauteurs de mer altimétriques et hydrologiques. Nous expliquons pourquoi et détaillons les améliorations. Nous étudions également l'impact du retrait du cycle saisonnier et l'influence de la structure verticale de l'océan dans la répartition barotrope/barocline de la circulation. Nous terminons sur l'analyse de la circulation saisonnière et inter-annuelle à 1000 mètres de profondeur. Les champs Armor3d, combinaison de champs satellites et de profils in situ existent depuis plusieurs années. Le récent jeu de données fourni par les flotteurs Argo permet de considérablement améliorer les paramètres de la combinaison, de couvrir une meilleure zone géographique et d'avoir des champs plus profonds. Nous montrons que les deux types de mesures sont indispensables, même pour étudier la variabilité grande échelle de l'océan. Enfin, nous utilisons nos champs Armor3d pour étudier la variabilité océanique des 16 dernières années
The objective of this thesis is to analyze the oceanic variability in temperature and salinity over the period 1993-2008. For that purpose, it is necessary to use the maximum of observations available, namely in situ data of temperature and salinity, but also satellite data of sea surface temperature and sea height. To reach our objective, several steps are necessary: create a solid and coherent database, compare datasets to have a better physical understanding of the contents of every type of data then develop methods of combination to assemble the datasets. The cross-comparison of the altimetric and Argo datasets allows at first to verify the quality of the Argo dataset. In 2006, Guinehut and al published a paper on the comparison of SLA (Sea Level Anomaly) and DHA (Dynamic Height Anomaly). Today, the Argo dataset allows improving the comparisons. We explain why and we detail the differences between both studies. We also study the impact of the removal of the seasonal cycle and the influence of the vertical structure of the ocean in the barotrope / barocline distribution of the oceanic circulation. We end on the analysis of the SLA-DHA signal in term of seasonal and inter-annual circulation at 1000 meters deep. Armor3d Field, combination of satellite fields and in situ profiles exist for several years. The recent dataset supplied by Argo profilers allows improving considerably the parameters of the combination, to cover a better geographical zone and to have deeper fields. We show that both types of measures are needed, even to study the large scale variability of the ocean. Finally, we use our Armor3d fields to study the oceanic variability of the last 16 years
APA, Harvard, Vancouver, ISO, and other styles
19

Khemiri, Rym. "Vers l'OLAP collaboratif pour la recommandation des analyses en ligne personnalisées." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22015/document.

Full text
Abstract:
La personnalisation vise à recueillir les intérêts, les préférences, les usages, les contraintes, le contexte, etc. souvent considérés comme faisant partie de ce que l'on appelle ''profil utilisateur'' pour ensuite les intégrer dans un système et les exploiter afin de permettre à l'utilisateur d'accéder rapidement aux informations les plus pertinentes pour lui. Par ailleurs, au sein d'une organisation, différents acteurs sont amenés à prendre des décisions à différents niveaux de responsabilité et ont donc besoin de réaliser des analyses à partir de l'entrepôt de données pour supporter la prise de décision. Ainsi, dans le contexte de cette communauté d'utilisateurs de l'entrepôt de données, la notion de collaboration émerge. Il est alors intéressant de combiner les concepts de personnalisation et de collaboration pour approcher au mieux les besoins des utilisateurs en leur recommandant des analyses en ligne pertinentes. L'objectif de ce mémoire est de proposer une approche collaborative pour l'OLAP, impliquant plusieurs utilisateurs, dirigée par un processus de personnalisation intégré aux systèmes décisionnels afin de pouvoir aider l'utilisateur final dans son processus d'analyse en ligne. Qu'il s'agisse de personnalisation du modèle d'entrepôt, de recommandation de requêtes décisionnelles ou de recommandation de chemins de navigation au sein des cubes de données, l'utilisateur a besoin d'un système décisionnel efficace qui l'aide dans sa démarche d'analyse en ligne. La finalité est de fournir à l'utilisateur des réponses pertinentes proches de ses besoins pour qu'il puisse mieux appréhender ses prises de décision. Nous nous sommes intéressés dans cette thèse à trois problèmes relevant de la prise en compte de l'utilisateur au sein des entrepôts de données et de l'OLAP. Nos contributions s'appuient sur la combinaison de techniques issues de la fouille de données avec les entrepôts et OLAP. Notre première contribution est une approche qui consiste à personnaliser les hiérarchies de dimensions afin d'obtenir des axes d'analyse nouveaux sémantiquement plus riches pouvant aider l'utilisateur à réaliser de nouvelles analyses non prévues par le modèle de l'entrepôt initial. En effet, nous relâchons la contrainte du modèle fixe de l'entrepôt, ce qui permet à l'utilisateur de créer de nouveaux axes d'analyse pertinents en tenant compte à la fois de ses contraintes et des connaissances enfouies dans les données entreposées. Notre approche repose sur une méthode d'apprentissage non-supervisé, le k-means contraint, capable de créer de nouveaux regroupements intéressants des données entreposées pouvant constituer un nouveau niveau de hiérarchie permettant de réaliser de nouvelles requêtes décisionnelles. L'intérêt est alors de pouvoir exploiter ces nouveaux niveaux de hiérarchie pour que les autres utilisateurs appartenant à la même communauté d'utilisateurs puissent en tirer profit, dans l'esprit d'un système collaboratif dans lequel chacun apporte sa pierre à l'édifice. Notre deuxième contribution est une approche interactive pour aider l'utilisateur à formuler de nouvelles requêtes décisionnelles pour construire des cubes OLAP pertinents en s'appuyant sur ses requêtes décisionnelles passées, ce qui lui permet d'anticiper sur ses besoins d'analyse futurs. Cette approche repose sur l'extraction des motifs fréquents à partir d'une charge de requêtes associée à un ou à un ensemble d'utilisateurs appartenant à la même communauté d'acteurs d'une organisation. Notre intuition est que la pertinence d'une requête décisionnelle est fortement corrélée avec la fréquence d'utilisation par l'utilisateur (ou un ensemble d'utilisateurs) des attributs associés à l'ensemble de ses (leurs) requêtes précédentes. Notre approche de formulation de requêtes (...)
The objective of this thesis is to provide a collaborative approach to the OLAP involving several users, led by an integrated personalization process in decision-making systems in order to help the end user in their analysis process. Whether personalizing the warehouse model, recommending decision queries or recommending navigation paths within the data cubes, the user need an efficient decision-making system that assist him. We were interested in three issues falling within data warehouse and OLAP personalization offering three major contributions. Our contributions are based on a combination of datamining techniques with data warehouses and OLAP technology. Our first contribution is an approach about personalizing dimension hierarchies to obtain new analytical axes semantically richer for the user that can help him to realize new analyzes not provided by the original data warehouse model. Indeed, we relax the constraint of the fixed model of the data warehouse which allows the user to create new relevant analysis axes taking into account both his/her constraints and his/her requirements. Our approach is based on an unsupervised learning method, the constrained k-means. Our goal is then to recommend these new hierarchy levels to other users of the same user community, in the spirit of a collaborative system in which each individual brings his contribution. The second contribution is an interactive approach to help the user to formulate new decision queries to build relevant OLAP cubes based on its past decision queries, allowing it to anticipate its future analysis needs. This approach is based on the extraction of frequent itemsets from a query load associated with one or a set of users belonging to the same actors in a community organization. Our intuition is that the relevance of a decision query is strongly correlated to the usage frequency of the corresponding attributes within a given workload of a user (or group of users). Indeed, our approach of decision queries formulation is a collaborative approach because it allows the user to formulate relevant queries, step by step, from the most commonly used attributes by all actors of the user community. Our third contribution is a navigation paths recommendation approach within OLAP cubes. Users are often left to themselves and are not guided in their navigation process. To overcome this problem, we develop a user-centered approach that suggests the user navigation guidance. Indeed, we guide the user to go to the most interesting facts in OLAP cubes telling him the most relevant navigation paths for him. This approach is based on Markov chains that predict the next analysis query from the only current query. This work is part of a collaborative approach because transition probabilities from one query to another in the cuboids lattice (OLAP cube) is calculated by taking into account all analysis queries of all users belonging to the same community. To validate our proposals, we present a support system user-centered decision which comes in two subsystems: (1) content personalization and (2) recommendation of decision queries and navigation paths. We also conducted experiments that showed the effectiveness of our analysis online user centered approaches using quality measures such as recall and precision
APA, Harvard, Vancouver, ISO, and other styles
20

Arnaud, Quentin. "Détection directe de matière noire avec l’expérience EDELWEISS-III : étude des signaux induits par le piégeage de charges, analyse de données et caractérisation de la sensibilité des détecteurs cryogéniques aux WIMPs de basse masse." Thesis, Lyon 1, 2015. http://www.theses.fr/2015LYO10199/document.

Full text
Abstract:
L'expérience EDELWEISS-III est dédiée à la détection directe de matière noire sous forme de WIMPs. Ces particules massives devraient constituer plus de 80% de la masse de l'univers et être détectables via leur diffusion élastique sur un noyau de l'absorbeur d'un détecteur. Le taux d'événements WIMPs attendu étant très faible (<1/kg/an) , une méthode de double mesure chaleur/ionisation est réalisée afin de discriminer les reculs électroniques issus du fond et , des reculs nucléaires engendrés par les neutrons et WIMPs. Le travail de thèse a consisté en l'étude des signaux induits par le piégeage de charges. Un modèle analytique de son impact sur les signaux des voies ionisation et chaleur est présenté. Les prédictions du modèle, confortées par leur accord avec les données et une simulation numérique, ont donné lieu à diverses applications : amélioration des résolutions, sensibilité à la profondeur des dépôts d'énergie, caractérisation du piégeage de charges dans les cristaux. L'analyse des données du Run308 est détaillée et les résultats interprétés en terme de limite d'exclusion. Cette analyse a mis au jour la présence d'un bruit de fond neutron limitant pour la recherche de WIMPs de haute masse (>20GeV). La dernière partie est consacrée à une étude de l'optimisation des détecteurs cryogéniques aux WIMPs de basse masse. Ce travail, réalisée via un test statistique de rapport de vraisemblance profilé, a permis d'étudier l'influence des divers paramètres expérimentaux sur le potentiel d'exclusion. Les conclusions de cette analyse, conjointement aux résultats du Run308, ont mené l'expérience EDELWEISS à privilégier la recherche de WIMPs de basse masse (<20GeV)
The EDELWEISS-III experiment is dedicated to direct dark matter searches aiming at detecting WIMPS. These massive particles should account for more than 80% of the mass of the Universe and be detectable through their elastic scattering on nuclei constituting the absorber of a detector. As the expected WIMP event rate is extremely low (<1/kg/year), a double measurement heat/ionization is performed to discriminate electronic recoils originating from _ and backgrounds and nuclear recoils induced by neutrons and WIMPs. The first part of the thesis work consisted in studying the signals induced by charge carrier trapping. An analytical model of its impact on both ionization and heat signals is presented. The model predictions, through their agreement with both data and a numerical simulation, lead to various applications : improvement of the resolutions, statistical sensitivity to energy deposit depths, characterization of trapping within the crystals. The analysis of the Run308 data is detailed and its results are interpreted in terms of an exclusion limit on the WIMP-nucleon cross section (SI). This study brings to light the presence of a limiting neutron background for high mass WIMP searches (>20GeV). Finally, a study dedicated to the optimization of solid cryogenic detectors to low mass WIMP searches is presented. This study is performed on simulated data using a statistical test based on a profiled likelihood ratio that allows for statistical background subtraction and spectral shape discrimination. This study combined with results from Run308, has lead the EDELWEISS experiment to favor low mass WIMP searches (<20GeV)
APA, Harvard, Vancouver, ISO, and other styles
21

Boulil, Kamal. "Une approche automatisée basée sur des contraintes d’intégrité définies en UML et OCL pour la vérification de la cohérence logique dans les systèmes SOLAP : applications dans le domaine agri-environnemental." Thesis, Clermont-Ferrand 2, 2012. http://www.theses.fr/2012CLF22285/document.

Full text
Abstract:
Les systèmes d'Entrepôts de Données et OLAP spatiaux (EDS et SOLAP) sont des technologies d'aide à la décision permettant l'analyse multidimensionnelle de gros volumes de données spatiales. Dans ces systèmes, la qualité de l'analyse dépend de trois facteurs : la qualité des données entreposées, la qualité des agrégations et la qualité de l’exploration des données. La qualité des données entreposées dépend de critères comme la précision, l'exhaustivité et la cohérence logique. La qualité d'agrégation dépend de problèmes structurels (e.g. les hiérarchies non strictes qui peuvent engendrer le comptage en double des mesures) et de problèmes sémantiques (e.g. agréger les valeurs de température par la fonction Sum peut ne pas avoir de sens considérant une application donnée). La qualité d'exploration est essentiellement affectée par des requêtes utilisateur inconsistantes (e.g. quelles ont été les valeurs de température en URSS en 2010 ?). Ces requêtes peuvent engendrer des interprétations erronées des résultats. Cette thèse s'attaque aux problèmes d'incohérence logique qui peuvent affecter les qualités de données, d'agrégation et d'exploration. L'incohérence logique est définie habituellement comme la présence de contradictions dans les données. Elle est typiquement contrôlée au moyen de Contraintes d'Intégrité (CI). Dans cette thèse nous étendons d'abord la notion de CI (dans le contexte des systèmes SOLAP) afin de prendre en compte les incohérences relatives aux agrégations et requêtes utilisateur. Pour pallier les limitations des approches existantes concernant la définition des CI SOLAP, nous proposons un Framework basé sur les langages standards UML et OCL. Ce Framework permet la spécification conceptuelle et indépendante des plates-formes des CI SOLAP et leur implémentation automatisée. Il comporte trois parties : (1) Une classification des CI SOLAP. (2) Un profil UML implémenté dans l'AGL MagicDraw, permettant la représentation conceptuelle des modèles des systèmes SOLAP et de leurs CI. (3) Une implémentation automatique qui est basée sur les générateurs de code Spatial OCL2SQL et UML2MDX qui permet de traduire les spécifications conceptuelles en code au niveau des couches EDS et serveur SOLAP. Enfin, les contributions de cette thèse ont été appliquées dans le cadre de projets nationaux de développement d'applications (S)OLAP pour l'agriculture et l'environnement
Spatial Data Warehouse (SDW) and Spatial OLAP (SOLAP) systems are Business Intelligence (BI) allowing for interactive multidimensional analysis of huge volumes of spatial data. In such systems the quality ofanalysis mainly depends on three components : the quality of warehoused data, the quality of data aggregation, and the quality of data exploration. The warehoused data quality depends on elements such accuracy, comleteness and logical consistency. The data aggregation quality is affected by structural problems (e.g., non-strict dimension hierarchies that may cause double-counting of measure values) and semantic problems (e.g., summing temperature values does not make sens in many applications). The data exploration quality is mainly affected by inconsistent user queries (e.g., what are temperature values in USSR in 2010?) leading to possibly meaningless interpretations of query results. This thesis address the problems of logical inconsistency that may affect the data, aggregation and exploration qualities in SOLAP. The logical inconsistency is usually defined as the presence of incoherencies (contradictions) in data ; It is typically controlled by means of Integrity Constraints (IC). In this thesis, we extends the notion of IC (in the SOLAP domain) in order to take into account aggregation and query incoherencies. To overcome the limitations of existing approaches concerning the definition of SOLAP IC, we propose a framework that is based on the standard languages UML and OCL. Our framework permits a plateforme-independent conceptual design and an automatic implementation of SOLAP IC ; It consists of three parts : (1) A SOLAP IC classification, (2) A UML profile implemented in the CASE tool MagicDraw, allowing for a conceptual design of SOLAP models and their IC, (3) An automatic implementation based on the code generators Spatial OCLSQL and UML2MDX, which allows transforming the conceptual specifications into code. Finally, the contributions of this thesis have been experimented and validated in the context of French national projetcts aimming at developping (S)OLAP applications for agriculture and environment
APA, Harvard, Vancouver, ISO, and other styles
22

Saaidi, Afaf. "Multi-dimensional probing for RNA secondary structure(s) prediction." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLX067/document.

Full text
Abstract:
En bioinformatique structurale, la prédiction de la (des) structure(s) secondaire(s) des acides ribonucléiques (ARNs) constitue une direction de recherche majeure pour comprendre les mécanismes cellulaires. Une approche classique pour la prédiction de la structure postule qu'à l'équilibre thermodynamique, l'ARN adopte plusieurs conformations, caractérisées par leur énergie libre, dans l’ensemble de Boltzmann. Les approches modernes privilégient donc une considération des conformations dominantes. Ces approches voient leur précision limitées par l'imprécision des modèles d'énergie et les restrictions topologiques pesant sur les espaces de conformations.Les données expérimentales peuvent être utilisées pour pallier aux lacunes des méthodes de prédiction. Différents protocoles permettent ainsi la révélation d'informations structurales partielles via une exposition à un réactif chimique/enzymatique, dont l'effet dépend, et est donc révélateur, de la (les) structure(s) adoptée(s). Les données de sondage mono-réactif sont utilisées pour valider et complémenter les modèles d’énergie libre, permettant ainsi d’améliorer la précision des prédictions. En pratique, cependant, les praticiens basent leur modélisation sur des données de sondage produites dans diverses conditions expérimentales, utilisant différents réactifs ou associées à une collection de séquences mutées. Une telle approche intégrative est répandue mais reste manuelle, onéreuse et subjective. Au cours de cette thèse, nous avons développé des méthodes in silico pour une modélisation automatisée de la structure à partir de plusieurs sources de données de sondage.En premier lieu, nous avons établi des pipelines d’analyse automatisés pour l'acquisition de profils de réactivité à partir de données brutes produites à travers une série de protocoles. Nous avons ensuite conçu et implémenté une nouvelle méthode qui permet l'intégration simultanée de plusieurs profils de sondage. Basée sur une combinaison d'échantillonnage de l'ensemble de Boltzmann et de clustering structurel, notre méthode produit des conformations dominantes, stables et compatible avec les données de sondage. En favorisant les structures récurrentes, notre méthode permet d’exploiter la complémentarité entre plusieurs données de sondage. Ses performances dans le cas mono-sondage sont comparables ou meilleures que celles des méthodes prédictives de pointe.Cette méthode a permis de proposer des modèles pour les régions structurées des virus. En collaboration avec des expérimentalistes, nous avons suggéré une structure raffinée de l'IRES du VIH-1 Gag, compatible avec les données de sondage chimiques et enzymatiques, qui nous a permis d’identifier des sites d'interactions putatifs avec le ribosome. Nous avons également modélisé la structure des régions non traduites d'Ebola. Cohérents avec les données de sondage SHAPE et les données de covariation, nos modèles montrent l’existence d'une tige-boucle conservée et stable à l'extrémité 5', une structure typiquement présente dans les génomes viraux pour protéger l'ARN de la dégradation par les nucléases.L’extension de notre méthode pour l’analyse simultanée de variants, appliquée dans un premier temps sur des mutants produits par le protocole Mutate-and-Map et sondés par le DMS, a permis d'enregistrer une amélioration en précision de prédiction. Pour éviter la production systématique de mutants ponctuels et exploiter le protocole récent SHAPEMap, nous avons conçu un protocole expérimental basé sur une mutagenèse non dirigé et le séquençage, où plusieurs ARN mutés sont produits et simultanément sondés. Nous avons traité l’affectation des reads aux mutants de références à l'aide d'une instance de l'algorithme "Expectation-Maximization" dont les résultats préliminaires, sur un échantillon de reads réduit/simulé, ont montré un faible taux d’erreurs d'assignation par rapport à une affectation classique des reads aux séquences d'ARN de référence
In structural bioinformatics, predicting the secondary structure(s) of ribonucleic acids (RNAs) represents a major direction of research to understand cellular mechanisms. A classic approach for structure postulates that, at the thermodynamic equilibrium, RNA adopts its various conformations according to a Boltzmann distribution based on its free energy. Modern approaches, therefore, favor the consideration of the dominant conformations. Such approaches are limited in accuracy due to the imprecision of the energy model and the structure topology restrictions.Experimental data can be used to circumvent the shortcomings of predictive computational methods. RNA probing encompasses a wide array of experimental protocols dedicated to revealing partial structural information through exposure to a chemical or enzymatic reagent, whose effect depends on, and thus reveals, features of its adopted structure(s). Accordingly, single-reagent probing data is used to supplement free-energy models within computational methods, leading to significant gains in prediction accuracy. In practice, however, structural biologists integrate probing data produced in various experimental conditions, using different reagents or over a collection of mutated sequences, to model RNA structure(s). This integrative approach remains manual, time-consuming and arguably subjective in its modeling principles. In this Ph.D., we contributed in silico methods for an automated modeling of RNA structure(s) from multiple sources of probing data.We have first established automated pipelines for the acquisition of reactivity profiles from primary data produced through a variety of protocols (SHAPE, DMS using Capillary Electrophoresis, SHAPE-Map/Ion Torrent). We have designed and implemented a new, versatile, method that simultaneously integrates multiple probing profiles. Based on a combination of Boltzmann sampling and structural clustering, it produces alternative stable conformations jointly supported by a set of probing experiments. As it favors recurrent structures, our method allows exploiting the complementarity of several probing assays. The quality of predictions produced using our method compared favorably against state-of-the-art computational predictive methods on single-probing assays.Our method was used to identify models for structured regions in RNA viruses. In collaboration with experimental partners, we suggested a refined structure of the HIV-1 Gag IRES, showing a good compatibility with chemical and enzymatic probing data. The predicted structure allowed us to build hypotheses on binding sites that are functionally relevant to the translation. We also proposed conserved structures in Ebola Untranslated regions, showing a high consistency with both SHAPE probing and evolutionary data. Our modeling allows us to detect conserved and stable stem-loop at the 5’end of each UTR, a typical structure found in viral genomes to protect the RNA from being degraded by nucleases.Our method was extended to the analysis of sequence variants. We analyzed a collection of DMS probed mutants, produced by the Mutate-and-Map protocol, leading to better structural models for the GIR1 lariat-capping ribozyme than from the sole wild-type sequence. To avoid systematic production of point-wise mutants, and exploit the recent SHAPEMap protocol, we designed an experimental protocol based on undirected mutagenesis and sequencing, where several mutated RNAs are produced and simultaneously probed. Produced reads must then be re-assigned to mutants to establish their reactivity profiles used later for structure modeling. The assignment problem was modeled as a likelihood maximization joint inference of mutational profiles and assignments, and solved using an instance of the "Expectation-Maximization" algorithm. Preliminary results on a reduced/simulated sample of reads showed a remarkable decrease of the reads assignment errors compared to a classic algorithm
APA, Harvard, Vancouver, ISO, and other styles
23

Rosenmann, Laurence. "Etudes théorique et expérimentale de l'élargissement par collisions des raies de CO2 perturbé par CO2, H2O, N2 et O2 : constitution d'une base de données infrarouge et Raman appliquée aux transferts thermiques et à la combustion." Châtenay-Malabry, Ecole centrale de Paris, 1988. http://www.theses.fr/1988ECAP0071.

Full text
Abstract:
Etude systématique des coefficients d'élargissement par collisions des raies infrarouge et Raman de dioxyde de carbone perturbé par dioxyde de carbone, eau, diazote et dioxygène. Les résultats obtenus dans la gamme de température 300-3000 K sont utiles pour modéliser les transferts radiatifs en particulier dans les systèmes de combustion, et pour les diagnostics infrarouge et Raman.
APA, Harvard, Vancouver, ISO, and other styles
24

Tifafi, Marwa. "Different soil study tools to better understand the dynamics of carbon in soils at different spatial scales, from a single soil profile to the global scale." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLV021/document.

Full text
Abstract:
Les sols sont la principale composantede l’écosystème terrestre et le plus grand réservoir de carbone organique sur Terre, étant très réactifs aux perturbations humaines et aux changements climatiques. Malgré leur importance dans les réservoirs de carbone, la dynamique du carbone des sols est une source importante d'incertitudes pour les prévisions climatiques futures. Le but de la thèse était d'explorer différents aspects d’études du carbone des sols (mesures expérimentales, modélisation et évaluation de bases de données) à différentes échelles spatiales (de l'échelle d'un profil à l'échelle globale). Nous avons souligné que l'estimation des stocks globaux de carbone du sol est encore assez incertaine.Par conséquent le rôle du carbone des sols dans la dynamique du climat devient l'une des principales incertitudes dans les modèles du système terrestre utilisés pour prédire les changements climatiques futurs. La deuxième partie de la thèse porte sur la présentation d'une nouvelle version du modèle IPSL-Land Surface appelé ORCHIDEE-SOM, intégrant la dynamique du 14C dans le sol. Plusieurs tests effectués supposent que les améliorations du modèle devraient se focaliser davantage sur une paramétrisation dépendante de la profondeur,principalement pour la diffusion, afin d'améliorer la représentation du cycle global du carbone dans les modèles de surface terrestre, contribuant ainsi à contraindre les prédictions futures du réchauffement climatique
Soils are the major components ofthe terrestrial ecosystems and the largest organiccarbon reservoir on Earth, being very reactive tohuman disturbance and climate change. Despiteits importance within the carbon reservoirs, soilcarbon dynamics is an important source ofuncertainties for future climate predictions. Theaim of the thesis was to explore different aspectsof soil carbon studies (Experimentalmeasurements, modeling, and databaseevaluation) at different spatial scales (from thescale of a profile to the global scale). Wehighlighted that the estimation of the global soilcarbon stocks is still quite uncertain.Consequently, the role of soil carbon in theclimate dynamics becomes one of the majoruncertainties in the Earth system models (ESMs)used to predict future climate change. Thesecond part of thesis deals with the presentationof a new version of the IPSL-Land SurfaceModel called ORCHIDEE-SOM, incorporatingthe 14C dynamics in the soil. Several tests doneassume that model improvements should focusmore on a depth dependent parameterization,mainly for the diffusion, in order to improve therepresentation of the global carbon cycle inLand Surface Models, thus helping to constrainthe predictions of the future soil organic carbonresponse to global warming
APA, Harvard, Vancouver, ISO, and other styles
25

Roberts, Mark Alvin. "Full waveform inversion of walk-away VSP data." Paris, Institut de physique du globe, 2007. http://www.theses.fr/2007GLOB0020.

Full text
Abstract:
Du fait de l’épuisement des réserves de pétrole, l’exploration et la production sont réalisées dans des environnements de plus en plus complexes. Faire de l’imagerie sismique sous le sel allochtone (par exemple dômes de sel) demeure une tâche difficile à cause du fait contraste de vitesse dentre le sel et les sédiments voisins et les structures très complexes produites par les déplacements de sel. Les nappes de sel allochtone couvrent de nombreuses régions potentiellement productives dans l’offshore profond du Golfe du Mexique. Forer la base du sel est une tâche extrêmement difficile en raison des pressions de pore fortement variables que l’on recontre dans les sédiments sous le sel. Des méthodes sismiques pour estimer la vitesse des ondes sismiques peuvent être employées en même temps que des formules empiriques pour prévoir la pression de pore. Cependant, il est souvent impossible de mesures précises depuis la surface, et nous avons donc employé des données VSP (Vertical Seismic Profile) “walk-away” cela implique d’effectuer plusieurs tirs sismique à diverses distances du forage (géneralement avec un dispositif de canons á air) tout en enregistrement les vitesses mesurees par des geophones placés à des profondeurs appropriées dans le forage. Avant cette thèse, les données étaient traitées en utilisant l’information d’amplitude en fonction de l’angle dans un simple approximation 1D ou en utilisant l’information de temps de parcours (également avec une approximation 1D). Dans cette thèse, j’ai effectué une inversion 2D de forme d’onde pour résoudre le problème d’estimation des vitesses. Cela a l’avantage d’inverser simultanément l’ensemble des données (comprenant les ondes transmises, les ondes refléchies et les ondes converties) et la méthode inclut l’information de temps de parcours et d’amplitude. L’inversion a été exécute avec des méthodes locales d’inversion du fait de la taille du problème inverse et de la difficulté du problème direct. Les problèmes liés aux grandes variations de le sensibilité inhérents à l’acquisition de données, ont conduit à un examen de la méthode de Gauss- Newton et à des matrices, de préconditionnement possibles pour la méthode du gradient conjugué. En raison de la nature mal contrainte du problème inverse, une régularisation a été appliquée avec une méthode de préconditionnement innovatrice. La méthodologie a été appliquée à des données réelles et la pression de pore a été prédite en utilisant l’équation bien établie de Eaton. En outre, les structures sous le sel ont été déterminées, confirment ainsi l’efficacité de cette technique
Depletion of the earth’s hydrocarbon reserves has led to exploration and production in increasingly complex environments. Imaging beneath allochthonous salt (e. G. Salt domes) remains a challenging task for seismic techniques due to the large velocity contrast of the salt with neighbouring sediments and the very complex structures generated by salt movement. Extensive allochthonous salt sheets cover many potentially productive regions in the deep-water Gulf of Mexico. Drilling through the base of salt is an extremely challenging task due to widely varying pore-pressure found in the sediments beneath. Seismic methods to estimate the seismic velocity can be used in conjunction with empirical formula to predict the pore pressure. However, accurate measurements are often not possible from surface reflection seismic data, so walk-away Vertical Seismic Profile (VSP) data has been used. This involves repeatedly firing a seismic source at various distances from the borehole (usually an airgun array) while recording the velocities measured by geophones in the borehole placed at appropriate depths near the base of the salt. Before this thesis, the data had been processed using the amplitude versus angle information in a simple one-dimension approximation or using travel time information (also using a 1D assumption). In this thesis, I have used 2D full waveform inversion to tackle the problem of velocity estimation. This has the advantage of simultaneously inverting the whole dataset (including transmitted waves, reflected waves, converted waves) and the method includes traveltime and amplitude information. The inversion was performed using local inversion methods due to the size of the inverse problem and the cost of the forward problem. Concerns over large sensitivity variations, that are inherent in the data acquisition, have lead to an examination of the Gauss-Newton method and possible preconditioning matrices for the conjugate gradient method. Due to the poorly constrained nature of the inverse problem, a smoothness constraint has been applied with an innovative preconditioning method. The methodology has been applied to real data and the pore pressure has been predicted using the well established Eaton equation. In addition, the sub-salt structure was recovered, further demonstrating the value of this technique
APA, Harvard, Vancouver, ISO, and other styles
26

Durand, Marie. "La découverte et la compréhension des profils d’apprenants : classification semi-supervisée et acquisition d’une langue seconde." Thesis, Paris 8, 2019. http://www.theses.fr/2019PA080029.

Full text
Abstract:
Cette thèse a pour ambition l'élaboration d’une méthodologie efficace pour la découverte et la description du profil de l'apprenant d'une L2 à partir de données d'acquisition (perception, compréhension et production). Nous souhaitons détecter des régularités dans les comportements acquisitionnels de sous-groupes d'apprenants, en tenant compte de l'aspect multidimensionnel du processus d'apprentissage L2. La méthodologie proposée appartient au domaine de l'intelligence artificielle, plus spécifiquement aux techniques de clustering semi supervisé.Notre algorithme a été appliqué à la base de données du projet VILLA qui inclut les données d'acquisition d'apprenants de 5 langues sources différentes (français, italien, néerlandais, allemand et anglais) avec le polonais comme langue cible. 156 apprenants adultes ont chacun été testé avec une variété de tâches en polonais pendant 14h de session d'enseignement, à partir de l'exposition initiale. Ces tests ont permis d’évaluer leurs performances sur les niveaux d'analyse linguistique que sont la phonologie, la morphologie, la morphosyntaxe et le lexique. La base de données inclut également leur sensibilité aux caractéristiques de l'input, telles que la fréquence et la transparence des éléments lexicaux utilisés dans les tâches linguistiques.La mesure de similarité utilisée dans les techniques classiques de clustering est revisitée dans ce travail afin d'évaluer la distance entre deux apprenants d'un point de vue acquisitionniste. Elle repose sur l'identification de la stratégie de réponse de l'apprenant à une structure de test linguistique spécifique. Nous montrons que cette mesure permet de détecter la présence ou l'absence dans les réponses de l'apprenant d'une stratégie proche du système flexionnel de la LC. Ce procédé fournit une classification des apprenants cohérente avec la recherche sur l'acquisition de la langue seconde et apporte de nouvelles pistes de réflexion sur les parcours acquisitionnels des apprenants ab initio
This thesis aims to develop an effective methodology for the discovery and description of the learner's profile of an L2 based on acquisition data (perception, understanding and production). We want to detect patterns in the acquisition behaviours of subgroups of learners, taking into account the multidimensional aspect of the L2 learning process. The proposed methodology belongs to the field of artificial intelligence, more specifically to semi supervised clustering techniques.Our algorithm has been applied to the data base of the VILLA project, which includes the performance of learners from 5 different source languages (French, Italian, Dutch, German and English) with Polish as the target language. 156 adult learners were each tested with a variety of tasks in Polish during 14 hours of teaching session, starting from the initial exposure. These tests made it possible to evaluate their performance on the levels of linguistic analysis that are phonology, morphology, morphosyntax and lexicon. The database also includes their sensitivity to input characteristics, such as the frequency and transparency of lexical elements used in linguistic tasks.The similarity measure used in traditional clustering techniques is revisited in this work in order to evaluate the distance between two learners from an acquisitionist point of view. It is based on the identification of the learner's response strategy to a specific language test structure. We show that this measure makes it possible to detect the presence or absence in the learner's responses of a strategy similar to the LC flexional system, and so enables our algorithm to provide a resulting classification consistent with second language acquisition research. As a result, we claim that our algorithm might be relevant in the empirical establishment of learners' profiles and the discovery of new opportunities for reflection or analysis
APA, Harvard, Vancouver, ISO, and other styles
27

Keshri, Vivek. "Evolutionary analysis of the β-lactamase families." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0250.

Full text
Abstract:
Les antibiotiques β-lactamines sont parmi les médicaments antimicrobiens les plus anciens et les plus utilisés. L'enzyme bactérienne β-lactamase hydrolyse l'antibiotique β-lactame en cassant la structure de base "anneau β-lactame". Pour identifier les nouvelles β-lactamases, une étude complète a été réalisée dans diverses bases de données biologiques telles que Human Microbiome Project, env_nr et NCBI nr. L'analyse a révélé que les séquences ancestrales putatives et les recherches de profil HMM jouaient un rôle important dans l'identification de la base de données homologue et métagénomique à distance dans l'enzyme β-lactamase existante comme matière noire. Les larges analyses phylogénétiques des β-lactamases existantes et nouvellement identifiées représentent les nouveaux clades dans les arbres. En outre, l'activité d'hydrolyse des antibiotiques β-lactamines de séquences nouvellement identifiées (provenant d'archées et d'humains) a été étudiée en laboratoire, ce qui montre l'activité de la β-lactamase. La deuxième phase de l'étude a été entreprise pour examiner l'évolution fonctionnelle des β-lactamases. Premièrement, des séquences de protéines ß-lactamase 1155 ont été extraites de la base de données ARG-ANNOT et des valeurs CMI la littérature correspondante. Les résultats ont révélé que l'activité fonctionnelle de la β-lactamase évoluait de manière convergente au sein de la classe moléculaire. La troisième phase de cette thèse représente le développement d'une base de données intégrative de β-lactamases. La base de données publique actuelle de β-lactamases a des informations limitées, par conséquence, une base de données intégrative a été développée
The β-lactam antibiotics are one of the oldest and widely used antimicrobial drugs. The bacterial enzyme β-lactamase hydrolyzes the β-lactam antibiotic by breaking the core structure “β-lactam ring”. To identify the novel β-lactamases a comprehensive investigation was performed in different biological databases such as Human Microbiome Project, env_nr, and NCBI nr. The analysis revealed that putative ancestral sequences and HMM profile searches played a significant role in the identification of remote homologous and uncovered the existing β-lactamase enzyme in the metagenomic database as dark-matter. The comprehensive phylogenetic analyses of extant and newly identified β-lactamase represent the novel clades in the trees. Further, the β-lactam antibiotic hydrolysis activity of newly identified sequences (from archaea and human) was investigated in laboratory, which shows β-lactamase activity.The second phase of the investigation was undertaken to examine the functional evolution of β-lactamases. First, 1155 β-lactamase protein sequences were retrieved from ARG-ANNOT database and MIC values from the corresponding literature. The results revealed that the functional activity of β-lactamase evolved convergently within the molecular class.The third phase of this thesis presents development of an integrative β-lactamase database. The existing public database of β-lactamase has limited information, therefore, an integrative database was developed
APA, Harvard, Vancouver, ISO, and other styles
28

Harrak, Fatima. "Analyse de questions d’apprenants et de profils associés dans des environnements en ligne." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS115.

Full text
Abstract:
Les questions des élèves sont utiles pour leur apprentissage et l'adaptation pédagogique des enseignants. Cependant, le volume de questions posées en ligne par les étudiants peut empêcher les enseignants de traiter chaque question (e.g. MOOC ou large cohorte universitaire). Nous abordons cette problématique principalement dans le cadre d’une formation hybride dans lequel chaque semaine les étudiants posent des questions en ligne, selon une approche de classe inversée, pour aider les enseignants à préparer leur séances de questions-réponses en présentiel. Notre objectif est d’outiller l’enseignant pour qu’il détermine les types de questions posées par les différents groupes d’apprenants. Pour mener ce travail, nous avons développé un schéma de codage de questions guidé par l’intention des élèves et la réaction pédagogique de l’enseignant. Plusieurs outils de classification automatique ont été conçus, évalués et combinés pour catégoriser les questions. Nous avons montré comment un modèle dérivé de clustering des données et entraîné sur des sessions antérieures peut être utilisé pour prédire le profil des élèves en ligne et établir des liens avec leurs questions. Ces résultats nous ont permis de proposer trois organisations de questions aux enseignants (basées sur les catégories de questions et profils des apprenants) qui ouvrent des perspectives de traitement différent lors des séances de questions-réponses. Nous avons testé et montré la possibilité d’adapter notre schéma de codage et les outils associés au contexte très différent d’un MOOC, ce qui suggère une certaine généricité de notre approche
Students' questions are useful for their learning and for teachers' pedagogical adaptation. However, the volume of questions asked online by students may prevent teachers from dealing with each question (e.g. MOOC or large university cohort). We address this issue mainly in the context of a hybrid training program in which students ask questions online each week, using a flipped classroom approach, to help teachers prepare their on-site Q&A session. Our objective is to support the teacher to determine the types of questions asked by different groups of learners. To conduct this work, we developed a question coding scheme guided by student’s intention and teacher’s pedagogical reaction. Several automatic classification tools have been designed, evaluated and combined to categorize the questions. We have shown how a clustering-based model built on data from previous sessions can be used to predict students' online profiles using exclusively the nature of the questions they ask. These results allowed us to propose three alternative questions’ organizations to teachers (based on questions’ categories and learners’ profiles), opening up perspectives for different pedagogical approaches during Q&A sessions. We have tested and demonstrated the possibility of adapting our coding scheme and associated tools to the very different context of a MOOC, which suggests a form of genericity in our approach
APA, Harvard, Vancouver, ISO, and other styles
29

Potie, Gilbert. "Contribution à l'étude géologique de la frontière SE de la plaque caraibe : la serrania del interior oriental sur le transect Cumana-Urica et le bassin de Maturin (Vénézuela) : application de données géophysiques et géologiques à une interpretation structurale." Brest, 1989. http://www.theses.fr/1989BRES2005.

Full text
Abstract:
L'analyse des donnees stratigraphiques et structurales de la serrania del interior confirme l'existence de 2 cycles sedimentaires cretace moyen-miocene. L'interpretation des profils sismique montre que la partie enfouie de l'edifice est structuree par des accidents suggerant la presence d'un decollement. L'interpretation gravimetrique et aeromagnetique confirme que la serrania est un exemple de chaine d'avant pays decollee et mise en place dans un contexte particulier associant une composante principale en coulissage dextre avec une collision oblique
APA, Harvard, Vancouver, ISO, and other styles
30

Guénec, Nadège. "Méthodologies pour la création de connaissances relatives au marché chinois dans une démarche d'Intelligence Économique : application dans le domaine des biotechnologies agricoles." Phd thesis, Université Paris-Est, 2009. http://tel.archives-ouvertes.fr/tel-00554743.

Full text
Abstract:
Le décloisonnement des économies et l'accélération mondiale des échanges commerciaux ont, en une décennie à peine, transformés l'environnement concurrentiel des entreprises. La zone d'activités s'est élargie en ouvrant des nouveaux marchés à potentiels très attrayants. Ainsi en est-il des BRIC (Brésil, Russie, Inde et Chine). De ces quatre pays, impressionnants par la superficie, la population et le potentiel économique qu'ils représentent, la Chine est le moins accessible et le plus hermétique à notre compréhension de par un système linguistique distinct des langues indo-européennes d'une part et du fait d'une culture et d'un système de pensée aux antipodes de ceux de l'occident d'autre part. Pourtant, pour une entreprise de taille internationale, qui souhaite étendre son influence ou simplement conserver sa position sur son propre marché, il est aujourd'hui absolument indispensable d'être présent sur le marché chinois. Comment une entreprise occidentale aborde-t-elle un marché qui de par son altérité, apparaît tout d'abord comme complexe et foncièrement énigmatique ? Six années d'observation en Chine, nous ont permis de constater les écueils dans l'accès à l'information concernant le marché chinois. Comme sur de nombreux marchés extérieurs, nos entreprises sont soumises à des déstabilisations parfois inimaginables. L'incapacité à " lire " la Chine et à comprendre les enjeux qui s'y déroulent malgré des effets soutenus, les erreurs tactiques qui découlent d'une mauvaise appréciation du marché ou d'une compréhension biaisée des jeux d'acteurs nous ont incités à réfléchir à une méthodologie de décryptage plus fine de l'environnement d'affaire qui puisse offrir aux entreprises françaises une approche de la Chine en tant que marché. Les méthodes de l'Intelligence Economique (IE) se sont alors imposées comme étant les plus propices pour plusieurs raisons : le but de l'IE est de trouver l'action juste à mener, la spécificité du contexte dans lequel évolue l'organisation est prise en compte et l'analyse se fait en temps réel. Si une approche culturelle est faite d'interactions humaines et de subtilités, une approche " marché " est dorénavant possible par le traitement automatique de l'information et de la modélisation qui s'en suit. En effet, dans toute démarche d'Intelligence Economique accompagnant l'implantation d'une activité à l'étranger, une grande part de l'information à portée stratégique vient de l'analyse du jeu des acteurs opérants dans le même secteur d'activité. Une telle automatisation de la création de connaissance constitue, en sus de l'approche humaine " sur le terrain ", une réelle valeur ajoutée pour la compréhension des interactions entre les acteurs car elle apporte un ensemble de connaissances qui, prenant en compte des entités plus larges, revêtent un caractère global, insaisissable par ailleurs. La Chine ayant fortement développé les technologies liées à l'économie de la connaissance, il est dorénavant possible d'explorer les sources d'information scientifiques et techniques chinoises. Nous sommes en outre convaincus que l'information chinoise prendra au fil du temps une importance de plus en plus cruciale. Il devient donc urgent pour les organisations de se doter de dispositifs permettant non seulement d'accéder à cette information mais également d'être en mesure de traiter les masses d'informations issues de ces sources. Notre travail consiste principalement à adapter les outils et méthodes issues de la recherche française à l'analyse de l'information chinoise en vue de la création de connaissances élaborées. L'outil MATHEO, apportera par des traitements bibliométriques une vision mondiale de la stratégie chinoise. TETRALOGIE, outil dédié au data-mining, sera adapté à l'environnement linguistique et structurel des bases de données scientifiques chinoises. En outre, nous participons au développement d'un outil d'information retreival (MEVA) qui intègre les données récentes des sciences cognitives et oeuvrons à son application dans la recherche de l'information chinoise, pertinente et adéquate. Cette thèse étant réalisée dans le cadre d'un contrat CIFRE avec le Groupe Limagrain, une application contextualisée de notre démarche sera mise en œuvre dans le domaine des biotechnologies agricoles et plus particulièrement autour des enjeux actuels de la recherche sur les techniques d'hybridation du blé. L'analyse de ce secteur de pointe, qui est à la fois une domaine de recherche fondamentale, expérimentale et appliquée donne actuellement lieu à des prises de brevets et à la mise sur le marché de produits commerciaux et représente donc une thématique très actuelle. La Chine est-elle réellement, comme nous le supposons, un nouveau territoire mondial de la recherche scientifique du 21e siècle ? Les méthodes de l'IE peuvent-elles s'adapter au marché chinois ? Après avoir fourni les éléments de réponses à ces questions dans es deux premières parties de notre étude, nous poserons en troisième partie, le contexte des biotechnologies agricoles et les enjeux mondiaux en terme de puissance économico-financière mais également géopolitique de la recherche sur l'hybridation du blé. Puis nous verrons en dernière partie comment mettre en œuvre une recherche d'information sur le marché chinois ainsi que l'intérêt majeur en terme de valeur ajoutée que représente l'analyse de l'information chinoise
APA, Harvard, Vancouver, ISO, and other styles
31

Somé, Sobom Matthieu. "Estimations non paramétriques par noyaux associés multivariés et applications." Thesis, Besançon, 2015. http://www.theses.fr/2015BESA2030/document.

Full text
Abstract:
Dans ce travail, l'approche non-paramétrique par noyaux associés mixtes multivariés est présentée pour les fonctions de densités, de masse de probabilité et de régressions à supports partiellement ou totalement discrets et continus. Pour cela, quelques aspects essentiels des notions d'estimation par noyaux continus (dits classiques) multivariés et par noyaux associés univariés (discrets et continus) sont d'abord rappelés. Les problèmes de supports sont alors révisés ainsi qu'une résolution des effets de bords dans les cas des noyaux associés univariés. Le noyau associé multivarié est ensuite défini et une méthode de leur construction dite mode-dispersion multivarié est proposée. Il s'ensuit une illustration dans le cas continu utilisant le noyau bêta bivarié avec ou sans structure de corrélation de type Sarmanov. Les propriétés des estimateurs telles que les biais, les variances et les erreurs quadratiques moyennes sont également étudiées. Un algorithme de réduction du biais est alors proposé et illustré sur ce même noyau avec structure de corrélation. Des études par simulations et applications avec le noyau bêta bivarié avec structure de corrélation sont aussi présentées. Trois formes de matrices des fenêtres, à savoir, pleine, Scott et diagonale, y sont utilisées puis leurs performances relatives sont discutées. De plus, des noyaux associés multiples ont été efficaces dans le cadre de l'analyse discriminante. Pour cela, on a utilisé les noyaux univariés binomial, catégoriel, triangulaire discret, gamma et bêta. Par la suite, les noyaux associés avec ou sans structure de corrélation ont été étudiés dans le cadre de la régression multiple. En plus des noyaux univariés ci-dessus, les noyaux bivariés avec ou sans structure de corrélation ont été aussi pris en compte. Les études par simulations montrent l'importance et les bonnes performances du choix des noyaux associés multivariés à matrice de lissage pleine ou diagonale. Puis, les noyaux associés continus et discrets sont combinés pour définir les noyaux associés mixtes univariés. Les travaux ont aussi donné lieu à la création d'un package R pour l'estimation de fonctions univariés de densités, de masse de probabilité et de régression. Plusieurs méthodes de sélections de fenêtres optimales y sont implémentées avec une interface facile d'utilisation. Tout au long de ce travail, la sélection des matrices de lissage se fait généralement par validation croisée et parfois par les méthodes bayésiennes. Enfin, des compléments sur les constantes de normalisations des estimateurs à noyaux associés des fonctions de densité et de masse de probabilité sont présentés
This work is about nonparametric approach using multivariate mixed associated kernels for densities, probability mass functions and regressions estimation having supports partially or totally discrete and continuous. Some key aspects of kernel estimation using multivariate continuous (classical) and (discrete and continuous) univariate associated kernels are recalled. Problem of supports are also revised as well as a resolution of boundary effects for univariate associated kernels. The multivariate associated kernel is then defined and a construction by multivariate mode-dispersion method is provided. This leads to an illustration on the bivariate beta kernel with Sarmanov's correlation structure in continuous case. Properties of these estimators are studied, such as the bias, variances and mean squared errors. An algorithm for reducing the bias is proposed and illustrated on this bivariate beta kernel. Simulations studies and applications are then performed with bivariate beta kernel. Three types of bandwidth matrices, namely, full, Scott and diagonal are used. Furthermore, appropriated multiple associated kernels are used in a practical discriminant analysis task. These are the binomial, categorical, discrete triangular, gamma and beta. Thereafter, associated kernels with or without correlation structure are used in multiple regression. In addition to the previous univariate associated kernels, bivariate beta kernels with or without correlation structure are taken into account. Simulations studies show the performance of the choice of associated kernels with full or diagonal bandwidth matrices. Then, (discrete and continuous) associated kernels are combined to define mixed univariate associated kernels. Using the tools of unification of discrete and continuous analysis, the properties of the mixed associated kernel estimators are shown. This is followed by an R package, created in univariate case, for densities, probability mass functions and regressions estimations. Several smoothing parameter selections are implemented via an easy-to-use interface. Throughout the paper, bandwidth matrix selections are generally obtained using cross-validation and sometimes Bayesian methods. Finally, some additionnal informations on normalizing constants of associated kernel estimators are presented for densities or probability mass functions
APA, Harvard, Vancouver, ISO, and other styles
32

Gratton, Eloïse. "Wireless privacy and personalized location-based services: the challenge of translating the legal framework into business practices." Thèse, 2002. http://hdl.handle.net/1866/2763.

Full text
Abstract:
L'avancement des communications sans-fil permet l'obtention de nouveaux services bases sur l'habileté des fournisseurs de services sans-fil à déterminer avec précision, et avec l'utilisation de technologies de pistage, la localisation et position géographiquement d'appareils sans-fil Cette habileté permet d'offrir aux utilisateurs de sans-fil de nouveaux services bases sur la localisation et la position géographique de leur appareil. Le développement des services basés sur la localisation des utilisateurs de sans-fil soulevé certains problèmes relatifs à la protection de la vie privée qui doivent être considérés. En effet, l'appareil sans-fil qui suit et enregistre les mouvements de I 'utilisateur permet un système qui enregistre et entrepose tous les mouvements et activités d'un tel utilisateur ou encore qui permet l'envoi de messages non anticipes à ce dernier. Pour ce motif et afin de protéger la vie privée des utilisateurs de sans-fil, une compagnie désirant développer ou déployer une technologie permettant d'offrir ce genre de services personnalisés devra analyser l'encadrement légal touchant la protection des données personnelles--lequel est dans certains cas vague et non approprié à ce nouveau contexte--ainsi que la position de l'industrie dans ce domaine, et ce, afin d'être en mesure de traduire cet encadrement en pratiques commerciales. Cette analyse permettra d'éclairer le fournisseur de ces services sur la façon d'établir son modèle d'affaires et sur le type de technologie à développer afin d'être en mesure de remédier aux nouveaux problèmes touchant la vie privée tout en offrant ces nouveaux services aux utilisateurs de sans-fil.
The proliferation of mobile communications is leading to new services based on the ability of service providers to determine, with increasing precision and through the use of location determination technologies, the geographic location of wireless devices and allow their users to receive services based on such location. The development of location-based services introduces new privacy risks for consumers that must be addressed. The portability of wireless devices coupled with their ability to pinpoint the location of wireless users and reveal it to others could produce a system where the everyday activities and movements of these users are tracked and recorded, and where wireless users receive unanticipated messages on their device. For this reason and in order to preserve the privacy of wireless users, a company looking to deploy a technology related to the providing of personalized location-based services ("LBS Provider") will have to analyze the privacy legal framework, coming either from legal sources--that may be in some case vague and not specific to this new context--or from the industry, and translate such framework into business practices. Such analysis may help in establishing what kind of business model and technology should be adopted and developed by LBS Providers in order to ensure the privacy of wireless users while providing this new type of service.
APA, Harvard, Vancouver, ISO, and other styles
33

Jetté, Virginie. "Traque-moi si je le veux : à la recherche d'un cadre juridique entourant la publicité comportementale." Thèse, 2017. http://hdl.handle.net/1866/20384.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Mouine, Mohamed. "Présentation personnalisée des informations environnementales." Thèse, 2014. http://hdl.handle.net/1866/11198.

Full text
Abstract:
Nous présentons dans cette thèse notre travail dans le domaine de la visualisation. Nous nous sommes intéressés au problème de la génération des bulletins météorologiques. Étant donné une masse énorme d’information générée par Environnement Canada et un utilisateur, il faut lui générer une visualisation personnalisée qui répond à ses besoins et à ses préférences. Nous avons développé MeteoVis, un générateur de bulletin météorologique. Comme nous avons peu d’information sur le profil de l’utilisateur, nous nous sommes basés sur les utilisateurs similaires pour lui calculer ses besoins et ses préférences. Nous utilisons l'apprentissage non supervisé pour regrouper les utilisateurs similaires. Nous calculons le taux de similarité des profils utilisateurs dans le même cluster pour pondérer les besoins et les préférences. Nous avons mené, avec l’aide d'utilisateurs n’ayant aucun rapport avec le projet, des expériences d'évaluation et de comparaison de notre outil par rapport à celui utilisé actuellement par Environnement Canada. Les résultats de cette évaluation montrent que les visualisation générées par MeteoVis sont de loin meilleures que les bulletins actuels préparés par EC.
We present our work in this thesis in the field of information visualization. We dealt with the problem of the generation of weather forecasts reports. Given the huge amount of information produced by Environment Canada and a wide variety of users, it must generate a customized visualization that meets their needs and preferences. We developed MeteoVis, a weather report generator. Given that we have little information on the user profile, we relied on the choices made by similar users to calculate the needs and preferences of a user. We use unsupervised machine learning techniques to group similar users . We compute a degree of similarity of user profiles in the same cluster to determine the needs and preferences. We conducted, with the help of external users experiments for evaluating and comparing our tool with the current site of Environment Canada. The evaluation results show that the visualizations generated by MeteoVis are significantly better than the current bulletins prepared by EC.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography