Tesi: "Données de préférence"

1

Alami, Karim. "Optimisation des requêtes de préférence skyline dans des contextes dynamiques". Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0135.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les requêtes de préférence sont des outils intéressants pour calculer des sous-ensembles représentatifs d'ensembles de données en entrée ou pour classer les tuples en fonction des préférences des utilisateurs. Dans cette thèse, nous abordons principalement l'optimisation des requêtes Skyline, une classe spéciale des requêtes de préférence, dans des contextes dynamiques. Dans une première partie, nous abordons la maintenance incrémentale de la structure d'indexation multidimensionnelle NSC qui a été démontrée efficace pour répondre aux requêtes skyline dans un contexte statique. Plus précisément, nous abordons (i) le cas des données dynamiques, c'est-à-dire que des tuples sont insérés ou supprimés à tout moment, et (ii) le cas des données en streaming, c'est-à-dire que les tuples sont insérés et écartés après un intervalle de temps spécifique. En cas de données dynamiques, nous repensons la structure et proposons des procédures pour gérer efficacement les insertions et les suppressions. En cas de données en streaming, nous proposons MSSD un pipeline de données qui gère les données par lot et maintient NSCt une variation de NSC. Dans une deuxième partie, nous abordons le cas des ordres dynamiques, c'est-à-dire que certains ou tous les attributs de l'ensemble de données sont catégoriques et chaque utilisateur exprime son propre ordre partiel sur le domaine de ces attributs. Nous proposons des algorithmes parallèles évolutifs qui décomposent une requête en un ensemble de sous-requêtes et traitent chaque sous-requête indépendamment. Pour optimiser davantage, nous proposons la matérialisation partielle des sous-requêtes et introduisons le problème de la sélection de sous-requêtes en fonction d'un coût
Preference queries are interesting tools to compute small representatives of datasets or to rank tuples based on the users’ preferences. In this thesis, we mainly focus on the optimization of Skyline queries, a special class of preference queries, in dynamic contexts. In a first part, we address the incremental maintenance of the multidimensional indexing structure NSC which has been shown efficient for answering skyline queries in a static context. More precisely, we address (i) the case of dynamic data, i.e. tuples are inserted or deleted at any time, and (ii) the case of streaming data, i.e. tuples are appended only, and discarded after a specific interval of time. In case of dynamic data, we redesign the structure and propose procedures to handle efficiently both insertions and deletions. In case of streaming data, we propose MSSD a data pipeline which operates in batch mode, and maintains NSCt a variation of NSC. In a second part, we address the case of dynamic orders, i.e, some or all attributes of the dataset are nominal and each user expresses his/her own partial order on these attributes’ domain. We propose highly scalable parallel algorithms that decompose an issued query into a set of sub-queries and process each sub-query independently. In a further step for optimization, we propose the partial materialization of sub-queries and introduce the problem of cost-driven sub-queries selection

2

Ben, Hassine Soumaya. "Évaluation et requêtage de données multisources : une approche guidée par la préférence et la qualité des données : application aux campagnes marketing B2B dans les bases de données de prospection". Thesis, Lyon 2, 2014. http://www.theses.fr/2014LYO22012/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Avec l’avènement du traitement distribué et l’utilisation accrue des services web inter et intra organisationnels alimentée par la disponibilité des connexions réseaux à faibles coûts, les données multisources partagées ont de plus en plus envahi les systèmes d’informations. Ceci a induit, dans un premier temps, le changement de leurs architectures du centralisé au distribué en passant par le coopératif et le fédéré ; et dans un deuxième temps, une panoplie de problèmes d’exploitation allant du traitement des incohérences des données doubles à la synchronisation des données distribuées. C’est le cas des bases de prospection marketing où les données sont enrichies par des fichiers provenant de différents fournisseurs.Nous nous intéressons au cadre particulier de construction de fichiers de prospection pour la réalisation de campagnes marketing B-to-B, tâche traitée manuellement par les experts métier. Nous visons alors à modéliser le raisonnement de brokers humains, afin d’optimiser et d’automatiser la sélection du « plan fichier » à partir d’un ensemble de données d’enrichissement multisources. L’optimisation en question s’exprimera en termes de gain (coût, qualité) des données sélectionnées, le coût se limitant à l’unique considération du prix d’utilisation de ces données.Ce mémoire présente une triple contribution quant à la gestion des bases de données multisources. La première contribution concerne l’évaluation rigoureuse de la qualité des données multisources. La deuxième contribution porte sur la modélisation et l’agrégation préférentielle des critères d’évaluation qualité par l’intégrale de Choquet. La troisième contribution concerne BrokerACO, un prototype d’automatisation et d’optimisation du brokering multisources basé sur l’algorithme heuristique d’optimisation par les colonies de fourmis (ACO) et dont la Pareto-optimalité de la solution est assurée par l’utilisation de la fonction d’agrégation des préférences des utilisateurs définie dans la deuxième contribution. L’efficacité du prototype est montrée par l’analyse de campagnes marketing tests effectuées sur des données réelles de prospection
In Business-to-Business (B-to-B) marketing campaigns, manufacturing “the highest volume of sales at the lowest cost” and achieving the best return on investment (ROI) score is a significant challenge. ROI performance depends on a set of subjective and objective factors such as dialogue strategy, invested budget, marketing technology and organisation, and above all data and, particularly, data quality. However, data issues in marketing databases are overwhelming, leading to insufficient target knowledge that handicaps B-to-B salespersons when interacting with prospects. B-to-B prospection data is indeed mainly structured through a set of independent, heterogeneous, separate and sometimes overlapping files that form a messy multisource prospect selection environment. Data quality thus appears as a crucial issue when dealing with prospection databases. Moreover, beyond data quality, the ROI metric mainly depends on campaigns costs. Given the vagueness of (direct and indirect) cost definition, we limit our focus to price considerations.Price and quality thus define the fundamental constraints data marketers consider when designing a marketing campaign file, as they typically look for the "best-qualified selection at the lowest price". However, this goal is not always reachable and compromises often have to be defined. Compromise must first be modelled and formalized, and then deployed for multisource selection issues. In this thesis, we propose a preference-driven selection approach for multisource environments that aims at: 1) modelling and quantifying decision makers’ preferences, and 2) defining and optimizing a selection routine based on these preferences. Concretely, we first deal with the data marketer’s quality preference modelling by appraising multisource data using robust evaluation criteria (quality dimensions) that are rigorously summarized into a global quality score. Based on this global quality score and data price, we exploit in a second step a preference-based selection algorithm to return "the best qualified records bearing the lowest possible price". An optimisation algorithm, BrokerACO, is finally run to generate the best selection result

3

Jerbi, Houssem. "Personnalisation d'analyses décisionnelles sur des données multidimensionnelles". Phd thesis, Toulouse 1, 2012. http://tel.archives-ouvertes.fr/tel-00695371.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail présenté dans cette thèse aborde la problématique de la personnalisation des analyses OLAP au sein des bases de données multidimensionnelles. Une analyse OLAP est modélisée par un graphe dont les noeuds représentent les contextes d'analyse et les arcs traduisent les opérations de l'utilisateur. Le contexte d'analyse regroupe la requête et le résultat. Il est décrit par un arbre spécifique qui est indépendant des structures de visualisation des données et des langages de requête. Par ailleurs, nous proposons un modèle de préférences utilisateur exprimées sur le schéma multidimensionnel et sur les valeurs. Chaque préférence est associée à un contexte d'analyse particulier. En nous basant sur ces modèles, nous proposons un cadre générique comportant deux mécanismes de personnalisation. Le premier mécanisme est la personnalisation de requête. Il permet d'enrichir la requête utilisateur à l'aide des préférences correspondantes afin de générer un résultat qui satisfait au mieux aux besoins de l'usager. Le deuxième mécanisme de personnalisation est la recommandation de requêtes qui permet d'assister l'utilisateur tout au long de son exploration des données OLAP. Trois scénarios de recommandation sont définis : l'assistance à la formulation de requête, la proposition de la prochaine requête et la suggestion de requêtes alternatives. Ces recommandations sont construites progressivement à l'aide des préférences de l'utilisateur. Afin valider nos différentes contributions, nous avons développé un prototype qui intègre les mécanismes de personnalisation et de recommandation de requête proposés. Nous présentons les résultats d'expérimentations montrant la performance et l'efficacité de nos approches. Mots-clés: OLAP, analyse décisionnelle, personnalisation de requête, système de recommandation, préférence utilisateur, contexte d'analyse, appariement d'arbres de contexte.

4

Chouiref, Zahira. "Contribution à l'étude de l'optimisation de requêtes de services Web : une approche centrée utilisateur". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2017. http://www.theses.fr/2017ESMA0016.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Durant la dernière décennie, l’évolution du Web a été marquée par une forte croissance des services publiés et qui s’est accompagnée d’une explosion considérable du nombre d’usagers dont les profils et contextes sont divers et variés. Les travaux présentés dans cette thèse traitent de l’optimisation de requêtes de services Web où le profil/contexte de l’utilisateur joue un rôle central. Il s’agit de sélectionner un service ou une combinaison de services pertinents parmi une masse importante de candidats compétitifs et capables de réaliser une tâche requise. Ces services candidats devant répondre au mieux aux exigences demandées par l’utilisateur selon un ensemble de critères non-fonctionnels. Dans notre approche, les critères non-fonctionnels considérés sont tous associés aux préférences du demandeur de service. Un intérêt plus important est alors porté à l’utilisateur qui se trouve au coeur du processus de sélection. La diversité du profil et du contexte de l’utilisateur, et également ceux des services cibles,rend ce processus encore plus complexe. Notre étude se focalise, dans un premier lieu,sur l’analyse des différentes approches de sélection de services Web existant dans la littérature. Nous mettons, notamment, en évidence leur contribution à la résolution des problèmes inhérents à la sélection des meilleurs services dans le but de satisfaire les critères non-fonctionnels formulés dans la requête. Dans un second temps, notre intérêt s’est porté sur la modélisation de spécification de l’offre et la demande de services,de leurs contextes et profils ainsi que les deux classes de préférences utilisateurs :explicites et implicites. Enfin, nous proposons une nouvelle famille d’approches d’optimisation qui intègre une stratégie de reformulation de requêtes par introduction des préférences implicites. Le concept clé de ces approches est un mécanisme d’inférence flou permettant d’accomplir un raisonnement déductif sur les informations liées au profil et contexte de l’utilisateur. Le principe consiste à combiner les deux familles de préférences utilisateur, tout en considérant conjointement les profils et les contextes des services et de l’utilisateur. L’application de la théorie des ensembles flous dans l’optimisation des requêtes à préférences des utilisateurs, en intégrant un module de raisonnement sur les informations liées à l’utilisateur, s’avère d’un intérêt majeur dans l’amélioration des qualités des résultats retournés. Nous présentons à la fin de l’étude une série d’expérimentations pour montrer la validité et la pertinence des approches proposées
The internet has completely transformed the way how we communicate (access toinformation). Its evolution was marked by strong growth of published services which has been accompanied by a large explosion in the number of users and a diversity oftheir profiles and their contexts.The work presented in this thesis deal with the adaptive optimization of Web services queries to user needs. This problem is to select a service or a combination of relevant services from a collection of candidates able to perform a required task. These candidate services must meet the requirements requested by the user, the selection makes his/herchoice from non-functional criteria. In our approach, non-functional criteria considered are all associated with preferences of service requester. A significant interest is therefore carried to the user who is at the core of the selection system. This selection is generally considered a complex task because of the diversity of profile and context of the service,which it is performed.Our study focuses mainly on the analysis of different service selection approaches.We especially highlight their contribution to solving the problems inherent in selecting the best services in order to meet the non-functional parameters of the request. Second, our interest has focused on modeling the specification of supply and demand for services, their context and profile as well as the two families preferences : explicit and implicit. Finally, we propose a novel optimization approach that integrates a query reformulation strategy by introducing implicit preferences based on the fuzzy inference process. The idea is to combine the two families of preferences required by the user with consideration of profiles and contexts of services and the user simultaneously. The application of fuzzy set theory in the optimization of preference query of customers by integrating reasoning module on information related to the user leads of great interest in improving the quality of results. We present at the end a set of experiments to demonstrate the validity and relevance of the proposed approach

5

Marie, Damien. "Anatomie du gyrus de Heschl et spécialisation hémisphérique : étude d'une base de données de 430 sujets témoins volontaire sains". Thesis, Bordeaux 2, 2013. http://www.theses.fr/2013BOR22072/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse concerne l’anatomie macroscopique des gyri de Heschl (GH) en relation avec la Préférence Manuelle (PM) et la Spécialisation Hémisphérique (SH) pour le langage étudiée dans une base de données multimodale dédiée à l’étude de la SH (la BIL&GIN), équilibrée pour le sexe et la PM. Le GH, situé à la surface du lobe temporal, abrite l’aire auditive primaire. Des études ont montré que le volume du GH est asymétrique gauche, et que le GH gauche (GHG) covarie avec les performances phonologiques et avec la quantité de cortex dévolu au traitement temporel des sons, suggérant une relation entre GHG et SH pour le langage. Pourtant l’anatomie des GH, très variable en terme de gyrification, est mal connue. Nous avons : 1- Décrit la distribution inter-hémisphérique de la gyrification des GH sur les images IRM anatomiques de 430 sujets. 2- Etudié les variations de surface et d’asymétrie du premier gyrus ou GH antérieur (GHa), montré sa diminution en présence de duplication et l’existence d’une asymétrie gauche pour les configurations les plus fréquentes avec GHG unique. Les gauchers présentaient moins de duplications droites et une perte de l’asymétrie gauche de GHa. 3- Testé si la variance de l’anatomie du GH expliquait la variabilité interindividuelle des asymétries mesurées en IRM fonctionnel pendant une tâche d’écoute de mots chez 281 sujets, et si les différences anatomiques liées à la PM étaient en relation avec une diminution de la SH pour le langage des gauchers. La distribution du nombre de GH expliquait 11% de la variance de l’asymétrie fonctionnelle du GH, les configurations à GHG unique étant les plus asymétriques gauches, sans effet de la PM sur la latéralisation fonctionnelle du GH
This thesis concerns the macroscopical anatomy of Heschl’s gyri (HG) in relation with Manual Preference (MP) and the Hemispheric Specialization (HS) for language studied in a multimodal database dedicated to the investigation of HS and balanced for sex and MP (BIL&GIN). HG, located on the surface of the temporal lobe, hosts the primary auditory cortex. Previous studies have shown that HG volume is leftward asymmetrical and that the left HG (LHG) covaries with phonological performance and with the amount of cortex dedicated to the processing of the temporal aspects of sounds, suggesting a relationship between LHG and HSL. However HG anatomy is highly variable and little known. In this thesis we have: 1- Described HG inter-hemispheric gyrification pattern on the anatomical MRI images of 430 healthy participants. 2- Studied the variation of the first or anterior HG (aHG) surface area and its asymmetry and shown its reduction in the presence of duplication and that its leftward asymmetry was present only in the case of a single LHG. Left-handers exhibited a lower incidence of right duplication and a loss of aHG leftward asymmetry. 3- Tested whether the variance of HG anatomy explained the interindividual variability of asymmetries measured with fMRI during the listening of a list of words in 281 participants, and whether differences in HG anatomy with MP were related to decreased HS for language in left-handers. HG inter-hemispheric gyrification pattern explained 11% of the variance of HG functional asymmetry, the patterns including a unique LHG being those with the strongest leftward asymmetry. There was no incidence of MP on HG functional lateralization

6

Elmi, Saïda. "An Advanced Skyline Approach for Imperfect Data Exploitation and Analysis". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2017. http://www.theses.fr/2017ESMA0011/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail de thèse porte sur un modèle de requête de préférence, appelée l'opérateur Skyline, pour l'exploitation de données imparfaites. L'imperfection de données peut être modélisée au moyen de la théorie de l'évidence. Ce type de données peut être géré dans des bases de données imparfaites appelées bases de données évidentielles. D'autre part, l'opérateur skyline est un outil puissant pour extraire les objets les plus intéressants dans une base de données.Dans le cadre de cette thèse, nous définissons une nouvelle sémantique de l'opérateur Skyline appropriée aux données imparfaites modélisées par la théorie de l'évidence. Nous introduisons par la suite la notion de points marginaux pour optimiser le calcul distribué du Skyline ainsi que la maintenance des objets Skyline en cas d'insertion ou de suppression d'objets dans la base de données.Nous modélisons aussi une fonction de score pour mesurer le degré de dominance de chaque objet skyline et définir le top-k Skyline. Une dernière contribution porte sur le raffinement de la requête Skyline pour obtenir les meilleurs objets skyline appelés objets Etoile ou Skyline stars
The main purpose of this thesis is to study an advanced database tool named the skyline operator in the context of imperfect data modeled by the evidence theory. In this thesis, we first address, on the one hand, the fundamental question of how to extend the dominance relationship to evidential data, and on the other hand, it provides some optimization techniques for improving the efficiency of the evidential skyline. We then introduce efficient approach for querying and processing the evidential skyline over multiple and distributed servers. ln addition, we propose efficient methods to maintain the skyline results in the evidential database context wben a set of objects is inserted or deleted. The idea is to incrementally compute the new skyline, without reconducting an initial operation from the scratch. In the second step, we introduce the top-k skyline query over imperfect data and we develop efficient algorithms its computation. Further more, since the evidential skyline size is often too large to be analyzed, we define the set SKY² to refine the evidential skyline and retrieve the best evidential skyline objects (or the stars). In addition, we develop suitable algorithms based on scalable techniques to efficiently compute the evidential SKY². Extensive experiments were conducted to show the efficiency and the effectiveness of our approaches

7

Goibert, Morgane. "Statistical Understanding of Adversarial Robustness". Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAT052.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse se concentre sur la question de la robustesse en apprentissage automatique, en examinant spécifiquement deux types d'attaques : les attaques de contamination pendant l'apprentissage et les attaques d'évasion pendant l'inférence.L'étude des attaques de contamination remonte aux années soixante et a été unifiée sous la théorie des statistiques robustes. Cependant, les recherches antérieures se sont principalement concentrées sur des types de données classiques, comme les nombres réels. Dans cette thèse, les statistiques robustes sont étendues aux données de classement, qui ne possèdent pas de structure d'espace vectoriel et ont une nature combinatoire. Les contributions de la thèse comprennent notamment un algorithme pour mesurer la robustesse des statistiques pour la tâche qui consiste à trouver un rang consensus dans un ensemble de données de rangs, ainsi que deux statistiques robustes pour résoudre ce même problème.En revanche, depuis 2013, les attaques d'évasion ont suscité une attention considérable dans le domaine de l'apprentissage profond, en particulier pour la classification d'images. Malgré la prolifération des travaux de recherche sur les exemples adversaires, le problème reste difficile à analyser sur le plan théorique et manque d'unification. Pour remédier à cela, cette thèse apporte des contributions à la compréhension et à l'atténuation des attaques d'évasion. Ces contributions comprennent l'unification des caractéristiques des exemples adversaires grâce à l'étude des paramètres sous-optimisés et à la circulation de l'information au travers des réseaux de neurones, ainsi que l'établissement de bornes théoriques caractérisant le taux de succès des attaques, récemment créées, de faible dimension
This thesis focuses on the question of robustness in machine learning, specifically examining two types of attacks: poisoning attacks at training time and evasion attacks at inference time.The study of poisoning attacks dates back to the sixties and has been unified under the theory of robust statistics. However, prior research was primarily focused on classical data types, mainly real-numbered data, limiting the applicability of poisoning attack studies. In this thesis, robust statistics are extended to ranking data, which lack a vector space structure and have a combinatorial nature. The work presented in this thesis initiates the study of robustness in the context of ranking data and provides a framework for future extensions. Contributions include a practical algorithm to measure the robustness of statistics for the task of consensus ranking, and two robust statistics to solve this task.In contrast, since 2013, evasion attacks gained significant attention in the deep learning field, particularly for image classification. Despite the proliferation of research works on adversarial examples, the theoretical analysis of the problem remains challenging and it lacks unification. To address this matter, the thesis makes contributions to understanding and mitigating evasion attacks. These contributions involve the unification of adversarial examples' characteristics through the study of under-optimized edges and information flow within neural networks, and the establishment of theoretical bounds characterizing the success rate of modern low-dimensional attacks for a wide range of models

8

Labernia, Fabien. "Algorithmes efficaces pour l’apprentissage de réseaux de préférences conditionnelles à partir de données bruitées". Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLED018/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La croissance exponentielle des données personnelles, et leur mise à disposition sur la toile, a motivé l’émergence d’algorithmes d’apprentissage de préférences à des fins de recommandation, ou d’aide à la décision. Les réseaux de préférences conditionnelles (CP-nets) fournissent une structure compacte et intuitive pour la représentation de telles préférences. Cependant, leur nature combinatoire rend leur apprentissage difficile : comment apprendre efficacement un CP-net au sein d’un milieu bruité, tout en supportant le passage à l’échelle ?Notre réponse prend la forme de deux algorithmes d’apprentissage dont l’efficacité est soutenue par de multiples expériences effectuées sur des données réelles et synthétiques.Le premier algorithme se base sur des requêtes posées à des utilisateurs, tout en prenant en compte leurs divergences d’opinions. Le deuxième algorithme, composé d’une version hors ligne et en ligne, effectue une analyse statistique des préférences reçues et potentiellement bruitées. La borne de McDiarmid est en outre utilisée afin de garantir un apprentissage en ligne efficace
The rapid growth of personal web data has motivated the emergence of learning algorithms well suited to capture users’ preferences. Among preference representation formalisms, conditional preference networks (CP-nets) have proven to be effective due to their compact and explainable structure. However, their learning is difficult due to their combinatorial nature.In this thesis, we tackle the problem of learning CP-nets from corrupted large datasets. Three new algorithms are introduced and studied on both synthetic and real datasets.The first algorithm is based on query learning and considers the contradictions between multiple users’ preferences by searching in a principled way the variables that affect the preferences. The second algorithm relies on information-theoretic measures defined over the induced preference rules, which allow us to deal with corrupted data. An online version of this algorithm is also provided, by exploiting the McDiarmid's bound to define an asymptotically optimal decision criterion for selecting the best conditioned variable and hence allowing to deal with possibly infinite data streams

9

Sibony, Eric. "Analyse mustirésolution de données de classements". Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

10

Jolivet, Laurence. "Modélisation des déplacements d'animaux dans un espace géographique : analyse et simulation". Thesis, Paris 1, 2014. http://www.theses.fr/2014PA010524/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Une des préoccupations de la société est de trouver un compromis entre le développement des territoires et la protection de la faune sauvage. La prise en compte des déplacements des animaux lors de projets d’aménagement nécessite de connaître les comportements des différentes espèces et de définir ce qui a une influence sur leur localisation et sur la sélection de leur lieu de vie. Notre objectif est de pouvoir représenter les déplacements d’animaux sur un espace géographique précisément décrit afin ensuite de simuler et d’évaluer les conséquences des aménagements.Nous avons commencé par analyser l’influence des éléments du paysage sur les déplacements à partir de localisations connues d’animaux comme des traces GPS (suivis menés par l’ELIZ, l’ANSES, l’ONCFS, l’INRA)et de données de description de l’espace notamment la BD TOPO®. Les cas d’étude correspondent à des milieux différents et à trois espèces : renard, chevreuil et cerf. Nous avons pu confirmer le rôle de certains caractères de l’espace selon les cas d’étude. Par exemple les préférences spatiales lors des déplacements des renards en milieu périurbain semblent se porter sur la végétation arborée et des lieux peu occupés par les hommes pendant certaines parties de la journée (parcs, zones d’activités, le long des voies ferrées). Concernant les cervidés en milieu forestier, la pente et le type de peuplement paraissent avoir le plus d’influence sur les déplacements.À l’aide des connaissances extraites par les analyses et de la littérature, nous avons défini et implémenté dans la plateforme GeOxygene un modèle de simulation de déplacements d’animaux. Les trajectoires sont construites par une approche agent reprenant le comportement spatial selon l’espèce et l’influence des éléments du paysage favorables ou faisant obstacle. Nous effectuons une analyse critique de notre modèle puis nous proposons des pistes d’enrichissement à l’aide de la comparaison avec les observations et le retour des écologues. Enfin des scénarios d’aménagement sont testés dans le but de mettre en évidence leur impact et leur efficacité
Finding compromises between human development and wildlife protection is one concern of society.Taking into account animal movements in planning projects requires some knowledge on species behaviours and on what determines their localizations and their habitat places. Our goal is to be able to represent animal movements on an accurate geographical space in order to simulate and to evaluate the consequences of planning decisions. We first analysed how the features of the landscape influence movements from collected localizations on animals, for example GPS tracks (studies of ELIZ, ANSES, ONCFS, INRA) and from data describing spacesuch as BD TOPO®. The studied cases are about several types of environment and three species: red fox,roe deer and red deer. We found some results that confirm the role played by the spatial features,depending on the studied cases. For instance in a periurban environment, foxes seem to be more inwooded patches and in places with few human activities during some parts of the day (squares, areas with industrial or commercial activities, sides of railways). In a forested environment, deers are more likely to be influenced by slope and forest stands. Thanks to knowledge from data analyses and to literature, we defined a simulation model for animalmovements. We implemented it in the GeOxygene platform. The trajectories are built with an agent approach by taking into account the spatial behaviour of the species and the influence of elements that favour or hinder movements. We proposed a critical view of the modelling choices and some improvements from the comparison with observations and experts advices. Then, scenarios within frastructures are defined so that to identify their impact and their efficiency

11

Delporte, Julien. "Factorisation matricielle, application à la recommandation personnalisée de préférences". Phd thesis, INSA de Rouen, 2014. http://tel.archives-ouvertes.fr/tel-01005223.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse s'articule autour des problèmes d'optimisation à grande échelle, et plus particulièrement autour des méthodes de factorisation matricielle sur des problèmes de grandes tailles. L'objectif des méthodes de factorisation de grandes matrices est d'extraire des variables latentes qui permettent d'expliquer les données dans un espace de dimension réduite. Nous nous sommes intéressés au domaine d'application de la recommandation et plus particulièrement au problème de prédiction de préférences d'utilisateurs.Dans une contribution, nous nous sommes intéressés à l'application de méthodes de factorisation dans un environnement de recommandation contextuelle et notamment dans un contexte social.Dans une seconde contribution, nous nous sommes intéressés au problème de sélection de modèle pour la factorisation où l'on cherche à déterminer de façon automatique le rang de la factorisation par estimation de risque.

12

Sadoun, Isma. "Raffinement progressif et personnalisé des requêtes de préférences dans un espace hautement dimensionnel". Versailles-St Quentin en Yvelines, 2014. http://www.theses.fr/2014VERS0004.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L’utilisation de préférences permet de personnaliser la recherche multi-critères et d’accroître la pertinence du résultat. L’exemple le plus connu est celui des requêtes skyline, basées sur le concept de dominance défini par Pareto. Ces requêtes permettent d éliminer les n-uplets dominés par d’autres n-uplets. L’utilisateur pourra alors choisir parmi les n-uplets qui ne sont pas dominés, que l’on peut considérer comme les meilleurs choix. Cependant, l’un des principaux problèmes des requêtes skyline est l’augmentation trop importante de la taille du résultat lorsque le nombre de dimensions, ou critères, augmente, rendant le choix par l’utilisateur difficile. Cette thèse apporte différentes solutions à ce problème. L’idée générale est d’étendre les relations de dominances en introduisant des critères plus flexibles et personnalisés pour comparer les n-uplets, puis de les combiner progressivement afin de satisfaire au mieux les besoins de l’utilisateur. Des extensions ont été apportées à l’opérateur skyline afin d’offrir à l’utilisateur la possibilité de classer les n-uplets de choisir la meilleure sélection ou encore de sélectionner les k meilleures solutions. L’utilisateur peut ainsi utiliser successivement plusieurs relations de préférences en les ordonnant afin de prendre en compte les priorités ou niveau de fiabilité qu’il attribue à chacune. Les algorithmes sont détaillés ainsi que l’expérimentation permettant de valider nos approches
The use of preferences provides personalized the multi-criteria search and enhances the relevance of the result. The most prominent technique is the skyline queries, based on the concept of Pareto dominance defined. These queries can eliminate tuples dominated by other tuples. The user can then choose from the tuples that are not dominated , which can be considered as the best choice. However, one of the main limitations of skyline queries is when the number of dimensions increases, the result size becomes too large to offer any interesting insights. This thesis provides different solutions to this problem. The general idea is to extend the dominance relationships by introducing more flexible and individualized criteria for comparing tuples, then combine them gradually to best meet the needs of the user. Extensions were made to the skyline operator to offer the user the ability to classify tuples to choose the best or select k best solutions. The user can successively use several preference relations by ordering them to take into account the priorities and level of reliability he attributes to each. This thesis also describes the proposed algorithms, along with the to validate our approaches

13

Sibony, Eric. "Analyse mustirésolution de données de classements". Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0036.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

14

Bouker, Slim. "Contribution à l'extraction des règles d'association basée sur des préférences". Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22585/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

15

Tran, Nguyen Minh-Thu. "Abstraction et règles d'association pour l'amélioration des systèmes de recommandation à partir de données de préférences binaires". Paris 13, 2011. http://www.theses.fr/2011PA132016.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les systèmes de recommandation sont des systèmes de ﬁltrage de l’information dont l’objectif est l’aide à la décision d’utilisateurs faisant face à l’augmentation incessante d’informations (sur des nouvelles, images, objets de consommations, objets culturels, etc. ) à traiter sur internet. Ces systèmes sont utilisés dans le commerce électronique, les loisirs, la presse en ligne, etc. Et représente un enjeu économique croissant. En commerce électronique, les informations nécessaires à la construction de tels systèmes sont souvent diﬃciles à exploiter : préférences souvent binaires, forme en longue traîne de la distribution des préférences et ajout/suppression constant d’items. De fait, la plupart des systèmes de recommandations se focalisent sur les items les plus populaires car les items nouveaux ou appartenant à la “longue traîne” sont associés à un nombre de préférences faible ou nul, et donc problématiques à recommander. Pour améliorer la performance de ces systèmes, nous proposons de recourir à l’abstraction d’items. Tout d’abord, l’abstraction des items peut conduire à une réduction considérable de l’effet longue traîne. Deuxièmement, l’extraction de règles d’association abstraites peut être utilisée pour identiﬁer les items à recommander. Deux algorithmes sont introduits : AbsTopα, qui se base sur les règles dans l’espace des items abstraits et ACReco, qui combine les items abstraits et concrets. Ces algorithmes ont été évaluée de manière quantitative (pertinence) et qualitative (nouveauté et diversité) sur une base de données réelle d’un site d’e-commerce en ligne. Les résultats empiriques présentés montrent l’intérêt de l’approche proposée
In recent years, recommendation systems have been extensively explored in order to help the user facing the increasing information on Internet. Those systems are used in e-commerce (Amazon, eBay, Netﬂix. . . ), entertainment, online news, etc. In the domain of e-commerce, the available data is often diﬃcult to exploit to build robust recommendations : binary data, long tail of the distribution of preferences and everlasting adding or removing of items. In fact, most recommender systems focus on the most popular items because the new items or those of the "long tail" are associated with little or no preference. To improve the performance of these systems, we propose to search for association rules between abstracted items. First, the abstraction of the items can lead to a considerable reduction of the long tail eﬀect. Second, the extraction of abstract association rules can be used to identify items to be recommended. . Two algorithms are introduced : AbsTopk, based on the rules in the space of abstract and ACReco combining items in the space of abstract and concrete items by pair. These algorithms were evaluated quantitatively (relevance) and qualitatively (novelty and diversity) on a real database of an online e-commerce site. The empirical results presented show the interest of the proposed approach

16

Hebert, Pierre-Alexandre. "Analyse de données sensorielles : une approche ordinale floue". Compiègne, 2004. http://www.theses.fr/2004COMP1542.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'analyse de profils sensoriels vise à décrire la façon dont un ensemble de produits est perçu par un groupe d'individus entraînés, ou juges, selon un ensemble de descripteurs sensoriels. Les évaluations, consistant en l'attribution de notes, sont répétées. L'approche proposée doit son originalité à une modélisation ordinale floue de l'information exprimée. Dans une première étape, une relation floue de dominance faible entre produits est synthétisée par répétition. Puis une procédure d'agrégation sur les répétitions permet de résumer la perception de chaque juge. Une agrégation similaire sur les juges conduit à la synthèse d'une relation consensuelle, caractéristique du descripteur traité. Les procédures d'extraction et de fusion s'inscrivent dans le cadre de la théorie des préférences floues, de façon à faciliter l'interprétation des relations obtenues. Leur analyse mono ou multidimensionnelle est finalement conduite par un ensemble d'outils de représentation graphique
Sensory profile data aims at describing the sensory perceptions of human subjects. Such a data is composed of scores attributed by human sensory experts (or judges) in order to describe a set of products according to sensory descriptors. AlI assessments are repeated, usually three times. The thesis describes a new analysis method based on a fuzzy modelling of the scores. The first step of the method consists in extracting and encoding the relevant information of each replicate into a fuzzy weak dominance relation. Then an aggregation procedure over the replicates allows to synthesize the perception of each judge into a new fuzzy relation. Ln a similar way, a consensual relation is finally obtained for each descriptor by fusing the relations of the judges. So as to ensure the interpretation of fused relations, fuzzy preference theory is used. A set of graphical tools is then proposed for the mono and multidimensional analysis of the obtained relations

17

Mukhtar, Hamid. "Intergiciel pour la composition des tâches utilisateurs dans les environnements pervasifs étant donné les préférences utilisateurs". Phd thesis, Institut National des Télécommunications, 2009. http://tel.archives-ouvertes.fr/tel-00537308.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

En raison du grand succès des réseaux sans _l et des appareils portatifs, le paradigme de l'informatique pervasive est devenu une réalité. L'un des plus di_ciles objectifs à atteindre dans de tels environnements est de permettre à l'utilisateur d'exécuter une tâche en composant à la volée, les services et les ressources de l'environnement. Cela implique la correspondance et la sélection automatique de services à travers divers dispositifs de l'environnement pervasif. Les approches existantes considèrent souvent seulement les aspects fonctionnels des services et ne prennent pas en compte diff érents aspects non-fonctionnels tels que les préférences utilisateur, les capacités des dispositifs en termes matériels et logiciels, et l'hétérogénéité du réseau de ces dispositifs. Nous présentons une approche pour la sélection dynamique des composants et des dispositifs dans un environnement pervasif en considérant simultanément tous les aspects précédemment mentionnés. Premièrement, nous proposons une modélisation abstraite et concrète de l'application, des capacités des terminaux et des ressources, des préférences des utilisateurs, ainsi que la modélisation de la plate-forme réseau sous-jacente. Les capacit és des dispositifs sont représentées par notre extension du modèle CC/PP et les préférences des utilisateurs en utilisant notre extension du modèle CP-Net. Nous mod- élisons sous forme d'un graphe la tâche de l'utilisateur et des services réseau sous-jacent, ainsi que les exigences des services, des préférences utilisateur et les capacités des dispositifs. L'hétérogénéité des protocoles de communication est également considérée dans les graphes. Les aspects algorithmiques ont été traités en fournissant des algorithmes pour la correspondance entre les services et les composants, pour la projection des applications sur la plate-forme de composants existants et pour l'évaluation des préférences utilisateurs. Pour la description de la composition de l'application nous proposons un modèle SCA étendu. Partant d'une composition abstraite de services, nous arrivons à réaliser une composition concrète de l'application distribuée à travers les dispositifs existants. Si pendant l'exécution un nouveau meilleur dispositif apparaît, l'application est recomposée en tenant compte des nouveaux composants. Cela permet de réaliser la continuité de la session d'un dispositif vers un autre. Une mise en oeuvre d'un prototype et son évaluation sont également fournis.

18

Diallo, Mouhamadou Saliou. "Découverte de règles de préférences contextuelles : application à la construction de profils utilisateurs". Thesis, Tours, 2015. http://www.theses.fr/2015TOUR4052/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L’utilisation de préférences suscite un intérêt croissant pour personnaliser des réponses aux requêtes et effectuer des recommandations ciblées. Pourtant, la construction manuelle de profils de préférences reste à la fois complexe et consommatrice de temps. Dans ce contexte, nous présentons dans cette thèse une nouvelle méthode automatique d’extraction de préférences basée sur des techniques de fouille de données. L’approche que nous proposons est constituée de deux phases : (1) une phase d’extraction de toutes les règles de préférences contextuelles intéressantes et (2) une phase de construction du profil utilisateur. A la fin de la première phase, nous constatons qu’il y a des règles redondantes voir superflues ; la seconde phase permet d’éliminer les règles superflues afin d’avoir un profil concis et consistant. Dans notre approche, un profil utilisateur est constitué de cet ensemble de règles de préférences contextuelles résultats de la seconde phase. La consistance garantit que les règles de préférences spécifiant les profils sont en accord avec un grand nombre de préférences utilisateur et contredisent un petit nombre d’entre elles. D’autre part, la concision implique que les profils sont constitués d’un petit nombre de règles de préférences. Nous avons aussi proposé quatre méthodes de prédiction qui utilisent les profils construits. Nous avons validé notre approche sur une base de données de films construite à partir de MovieLens et IMDB. La base de données contient 3 881 films notés par 6 040 utilisateurs. Ces derniers ont attribué 800 156 notes. Les résultats de ces expériences démontrent que la concision des profils utilisateurs est contrôlée par le seuil d’accord minimal et que même avec une forte réduction du nombre de règles, les qualités de prédiction des profils restent à un niveau acceptable. En plus des expérimentations montrant la qualité de prédiction de notre approche, nous avons montré également que les performances de notre approche peuvent rivaliser avec les qualités de prédiction de certaines méthodes de l’état de l’art, en particulier SVMRank
The use of preferences arouses a growing interest to personalize response to requests and making targeted recommandations. Nevertheless, manual construction of preferences profiles remains complex and time-consuming. In this context, we present in this thesis a new automatic method for preferences elicitation based on data mining techniques. Our proposal is a two phase algorithm : (1) Extracting all contextual preferences rules from a set of user preferences and (2) Building user profile. At the end of the first phase, we notice that there is to much preference rules which satisfy the fixed constraints then in the second phase we eliminate the superfluous preferences rules. In our approach a user profile is constituted by the set of contextual preferences rules resulting of the second phase. A user profile must satisfy conciseness and soundness properties. The soundness property guarantees that the preference rules specifying the profiles are in agreement with a large set of the user preferences, and contradict a small number of them. On the other hand, conciseness implies that profiles are small sets of preference rules. We also proposed four predictions methods which use the extracted profiles. We validated our approach on a set of real-world movie rating datasets built from MovieLens and IMDB. The whole movie rating database consists of 800,156 votes from 6,040 users about 3,881 movies. The results of these experiments demonstrates that the conciseness of user profiles is controlled by the minimal agreement threshold and that even with strong reduction, the soundness of the profile remains at an acceptable level. These experiment also show that predictive qualities of some of our ranking strategies outperform SVMRank in several situations

19

El, Moussawi Adnan. "Clustering exploratoire pour la segmentation de données clients". Thesis, Tours, 2018. http://www.theses.fr/2018TOUR4010/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux de cette thèse s’intéressent à l’exploration de la multiplicité des solutions de clustering. Le but est de proposer aux experts marketing un outil interactif d’exploration des données clients qui considère les préférences des experts sur l’espace des attributs. Nous donnons d’abord la définition d’un système de clustering exploratoire. Nous proposons ensuite une nouvelle méthode de clustering semi-supervisée qui considère des préférences quantitatives de l’utilisateur sur les attributs d’analyse et qui gère la sensibilité à ces préférences. Notre méthode tire profit de l’apprentissage de métrique pour trouver une solution de compromis entre la structure des données et les préférences de l’expert. Enfin, nous proposons un prototype de clustering exploratoire pour la segmentation des données de la relation client intégrant la nouvelle méthode de clustering proposée, mais aussi des fonctionnalités de visualisation et d’aide à l’interprétation de résultats permettant de réaliser un processus complet de clustering exploratoire
The research work presented in this thesis focuses on the exploration of the multiplicity of clustering solutions. The goal is to provide to marketing experts an interactive tool for exploring customer data that considers expert preferences on the space of attributes. We first give the definition of an exploratory clustering system. Then, we propose a new semi-supervised clustering method that considers user’s quantitative preferences on the analysis attributes and manages the sensitivity to these preferences. Our method takes advantage of metric learning to find a compromise solution that is both well adapted to the data structure and consistent with the expert’s preferences. Finally, we propose a prototype of exploratory clustering for customer relationship data segmentation that integrates the proposed method. The prototype also integrates visual and interaction components essential for the implementation of the exploratory clustering process

20

Alili, Hiba. "Intégration de données basée sur la qualité pour l'enrichissement des sources de données locales dans le Service Lake". Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLED019.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, d’énormes volumes de données sont créés en continu et les utilisateurs s’attendent à ce que ceux-ci soient collectés, stockés et traités quasiment en temps réel. Ainsi, les lacs de données sont devenus une solution attractive par rapport aux entrepôts de données classiques coûteux et fastidieux (nécessitant une démarche ETL), pour les entreprises qui souhaitent stocker leurs données. Malgré leurs volumes, les données stockées dans les lacs de données des entreprises sont souvent incomplètes voire non mises à jour vis-à-vis des besoins (requêtes) des utilisateurs.Les sources de données locales ont donc besoin d’être enrichies. Par ailleurs, la diversité et l’expansion du nombre de sources d’information disponibles sur le web a rendu possible l’extraction des données en temps réel. Ainsi, afin de permettre d’accéder et de récupérer l’information de manière simple et interopérable, les sources de données sont de plus en plus intégrées dans les services Web. Il s’agit plus précisément des services de données, y compris les services DaaS du Cloud Computing. L’enrichissement manuel des sources locales implique plusieurs tâches fastidieuses telles que l’identification des services pertinents, l’extraction et l’intégration de données hétérogènes, la définition des mappings service-source, etc. Dans un tel contexte, nous proposons une nouvelle approche d’intégration de données centrée utilisateur. Le but principal est d’enrichir les sources de données locales avec des données extraites à partir du web via les services de données. Cela permettrait de satisfaire les requêtes des utilisateurs tout en respectant leurs préférences en terme de coût d’exécution et de temps de réponse et en garantissant la qualité des résultats obtenus
In the Big Data era, companies are moving away from traditional data-warehouse solutions whereby expensive and timeconsumingETL (Extract, Transform, Load) processes are used, towards data lakes in order to manage their increasinglygrowing data. Yet the stored knowledge in companies’ databases, even though in the constructed data lakes, can never becomplete and up-to-date, because of the continuous production of data. Local data sources often need to be augmentedand enriched with information coming from external data sources. Unfortunately, the data enrichment process is one of themanual labors undertaken by experts who enrich data by adding information based on their expertise or select relevantdata sources to complete missing information. Such work can be tedious, expensive and time-consuming, making itvery promising for automation. We present in this work an active user-centric data integration approach to automaticallyenrich local data sources, in which the missing information is leveraged on the fly from web sources using data services.Accordingly, our approach enables users to query for information about concepts that are not defined in the data sourceschema. In doing so, we take into consideration a set of user preferences such as the cost threshold and the responsetime necessary to compute the desired answers, while ensuring a good quality of the obtained results

21

Mouloudi, Hassina. "Personnalisation de requêtes et visualisations OLAP sous contraintes". Tours, 2007. http://www.theses.fr/2007TOUR4029.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La personnalisation de requêtes est très utilisées dans le domaine de la RI et des BDs. Elle aide l'utilisateur à faire face à la diversité et à la masse d'information à laquelle il a accès. Un entrepôt de données stocke de gros volumes de données multidimensionnelles, consolidées et historisées dans le but d'être analysés. L'entrepôt est notamment conçu pour supporter des requêtes complexes de décision (requêtes OLAP) dont les résultats sont visualisés sous forme de tableaux croisés. Ces résultats peuvent être très volumineux et souvent ils ne peuvent être visualisés entièrement sur le dispositif d'affichage (PDA, téléphone mobile, etc. ). Ce travail a pour objectif d'étudier la personnalisation de l'information, pour un utilisateur interrogeant un entrepôt par requêtes OLAP. Un état de l'art sur la personnalisation dans les BDRs nous permet d'en dégager les principales caractéristiques et de les adapter au contexte de l'interrogation d'entrepôt par requête OLAP. Nous proposons tout d'abord une formalisation du concept de visualisation de résultats de requêtes OLAP, et nous montrons comment les visualisations peuvent être construites et manipulées. Ensuite, nous proposons une méthode de personnalisation à ajouter au langage de manipulation des visualisations. Cet opérateur présente l'intérêt de pouvoir être implanté par transformation d'une requête ou du résultat de la requête. Nous proposons une implantation de cet opérateur, servant de base à un prototype permettant à un utilisateur d'obtenir sa visualisation préférée lors de l'intérrogation d'un entrepôt via son mobile. Ce prototype nous permet de valider notre approche et d'en vérifier son efficacité
Personalization is extensively used in information retrieval and databases. It helps the user to face to diversity and the volume of information he accesses. A data warehouse stores large volumes of consolidated and historized multidimensional data to be analyzed. The data warehouse is in particular designed to support complex decision queries (OLAP queries) whose results are displayed under the form of cross tables. These results can be very large and often they cannot be visualized entirely on the display device (PDA, mobile phone, etc. ). This work aims to study the personalization of information, for a user querying a data warehouse with OLAP queries. A state of the art of works on personalization in relational databases allows us to establish their principal characteristics and adapt them to the context of exploitation of data warehouses by OLAP queries. We first propose a formalization of the concept of OLAP queries results visualizations, and we show how visualizations can be built and manipulated. Then, we propose a method for personalizing visualizations based on a user profile (including preferences and constraints). Our method corresponds to the formal definition of personalization operator added to the query language for visualizations. This operator can be implemented by transformation of a query or by transformation of the query result. We propose an implementation of this operator, which is used as a basis for a prototype allowing a user to obtain his preferred visualization when querying the data warehouse via a mobile device. This prototype allows us to validate our approach and to check its effectiveness

22

Boubou, Mounzer. "Contribution aux méthodes de classification non supervisée via des approches prétopologiques et d'agrégation d'opinions". Phd thesis, Université Claude Bernard - Lyon I, 2007. http://tel.archives-ouvertes.fr/tel-00195779.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail de thèse a porté sur une réflexion relative aux méthodes de classification automatique des données pour lesquelles il est bien connu qu'un effet « méthode » existe. Après une première partie qui présente la problématique générale de l'analyse des données et propose un survey des méthodes de classification, les travaux originaux de la thèse sont exposés. Ils relèvent de trois approches interconnectées : une approche basée sur l'agrégation d'opinions, une approche prétopologique et une approche basée sur l'agrégation des préférences. Chacune de ces approches se fonde sur un paradigme différent et propose une nouvelle vision des techniques de classification permettant d'apporter éventuellement de l'information exogène dans la méthode.

23

Mokhtari, Amine. "Système personnalisé de planification d'itinéraire unimodal : une approche basée sur la théorie des ensembles flous". Rennes 1, 2011. http://www.theses.fr/2011REN1E004.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous présentons un ensemble de contributions destinées à la définition d’une nouvelle génération de systèmes de planification d’itinéraire unimodal, capable de prendre en charge des préférences utilisateur complexes. La théorie des ensembles flous a été utilisée comme socle formel pour nos contributions. La première est une typologie des préférences utilisateur ayant du sens dans le cadre d’un déplacement unimodal. La nature bipolaire des préférences utilisateur dans un tel contexte est aussi discutée et prise en considération. Notre seconde contribution porte sur un langage fondé sur le calcul relationnel de tuples, RPQL, permettant la formulation de requêtes bipolaires de planification d’itinéraire avec préférences. Une approche permettant d’augmenter une requête avec de nouvelles préférences, déduites du contexte de l’utilisateur, constitue notre troisième contribution. Par ailleurs, l’architecture d’un système personnalisé de planification d’itinéraire a été proposée, ainsi qu’une approche efficace pour l’évaluation de requêtes de planification avec préférences. Enfin, des résultats expérimentaux, issus d’une plateforme de test mettant en œuvre notre système, sont présentés et discutés.

24

Brancotte, Bryan. "Agrégation de classements avec égalités : algorithmes, guides à l'utilisateur et applications aux données biologiques". Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112184/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'agrégation de classements consiste à établir un consensus entre un ensemble de classements (éléments ordonnés). Bien que ce problème ait de très nombreuses applications (consensus entre les votes d'utilisateurs, consensus entre des résultats ordonnés différemment par divers moteurs de recherche...), calculer un consensus exact est rarement faisable dans les cas d'applications réels (problème NP-difficile). De nombreux algorithmes d'approximation et heuristiques ont donc été conçus. Néanmoins, leurs performances (en temps et en qualité de résultat produit) sont très différentes et dépendent des jeux de données à agréger. Plusieurs études ont cherché à comparer ces algorithmes mais celles-ci n’ont généralement pas considéré le cas (pourtant courant dans les jeux de données réels) des égalités entre éléments dans les classements (éléments classés au même rang). Choisir un algorithme de consensus adéquat vis-à-vis d'un jeu de données est donc un problème particulièrement important à étudier (grand nombre d’applications) et c’est un problème ouvert au sens où aucune des études existantes ne permet d’y répondre. Plus formellement, un consensus de classements est un classement qui minimise le somme des distances entre ce consensus et chacun des classements en entrés. Nous avons considérés (comme une grande partie de l’état-de-art) la distance de Kendall-Tau généralisée, ainsi que des variantes, dans nos études. Plus précisément, cette thèse comporte trois contributions. Premièrement, nous proposons de nouveaux résultats de complexité associés aux cas que l'on rencontre dans les données réelles où les classements peuvent être incomplets et où plusieurs éléments peuvent être classés à égalité. Nous isolons les différents « paramètres » qui peuvent expliquer les variations au niveau des résultats produits par les algorithmes d’agrégation (par exemple, utilisation de la distance de Kendall-Tau généralisée ou de variantes, d’un pré-traitement des jeux de données par unification ou projection). Nous proposons un guide pour caractériser le contexte et le besoin d’un utilisateur afin de le guider dans le choix à la fois d’un pré-traitement de ses données mais aussi de la distance à choisir pour calculer le consensus. Nous proposons finalement une adaptation des algorithmes existants à ce nouveau contexte. Deuxièmement, nous évaluons ces algorithmes sur un ensemble important et varié de jeux de données à la fois réels et synthétiques reproduisant des caractéristiques réelles telles que similarité entre classements, la présence d'égalités, et différents pré-traitements. Cette large évaluation passe par la proposition d’une nouvelle méthode pour générer des données synthétiques avec similarités basée sur une modélisation en chaîne Markovienne. Cette évaluation a permis d'isoler les caractéristiques des jeux de données ayant un impact sur les performances des algorithmes d'agrégation et de concevoir un guide pour caractériser le besoin d'un utilisateur et le conseiller dans le choix de l'algorithme à privilégier. Une plateforme web permettant de reproduire et étendre ces analyses effectuée est disponible (rank-aggregation-with-ties.lri.fr). Enfin, nous démontrons l'intérêt d'utiliser l'approche d'agrégation de classements dans deux cas d'utilisation. Nous proposons un outil reformulant à-la-volé des requêtes textuelles d'utilisateur grâce à des terminologies biomédicales, pour ensuite interroger de bases de données biologiques, et finalement produire un consensus des résultats obtenus pour chaque reformulation (conqur-bio.lri.fr). Nous comparons l'outil à la plateforme de références et montrons une amélioration nette des résultats en qualité. Nous calculons aussi des consensus entre liste de workflows établie par des experts dans le contexte de la similarité entre workflows scientifiques. Nous observons que les consensus calculés sont très en accord avec les utilisateurs dans une large proportion de cas
The rank aggregation problem is to build consensus among a set of rankings (ordered elements). Although this problem has numerous applications (consensus among user votes, consensus between results ordered differently by different search engines ...), computing an optimal consensus is rarely feasible in cases of real applications (problem NP-Hard). Many approximation algorithms and heuristics were therefore designed. However, their performance (time and quality of product loss) are quite different and depend on the datasets to be aggregated. Several studies have compared these algorithms but they have generally not considered the case (yet common in real datasets) that elements can be tied in rankings (elements at the same rank). Choosing a consensus algorithm for a given dataset is therefore a particularly important issue to be studied (many applications) and it is an open problem in the sense that none of the existing studies address it. More formally, a consensus ranking is a ranking that minimizes the sum of the distances between this consensus and the input rankings. Like much of the state-of-art, we have considered in our studies the generalized Kendall-Tau distance, and variants. Specifically, this thesis has three contributions. First, we propose new complexity results associated with cases encountered in the actual data that rankings may be incomplete and where multiple items can be classified equally (ties). We isolate the different "features" that can explain variations in the results produced by the aggregation algorithms (for example, using the generalized distance of Kendall-Tau or variants, pre-processing the datasets with unification or projection). We propose a guide to characterize the context and the need of a user to guide him into the choice of both a pre-treatment of its datasets but also the distance to choose to calculate the consensus. We finally adapt existing algorithms to this new context. Second, we evaluate these algorithms on a large and varied set of datasets both real and synthetic reproducing actual features such as similarity between rankings, the presence of ties and different pre-treatments. This large evaluation comes with the proposal of a new method to generate synthetic data with similarities based on a Markov chain modeling. This evaluation led to the isolation of datasets features that impact the performance of the aggregation algorithms, and to design a guide to characterize the needs of a user and advise him in the choice of the algorithm to be use. A web platform to replicate and extend these analyzes is available (rank-aggregation-with-ties.lri.fr). Finally, we demonstrate the value of using the rankings aggregation approach in two use cases. We provide a tool to reformulating the text user queries through biomedical terminologies, to then query biological databases, and ultimately produce a consensus of results obtained for each reformulation (conqur-bio.lri.fr). We compare the results to the references platform and show a clear improvement in quality results. We also calculate consensus between list of workflows established by experts in the context of similarity between scientific workflows. We note that the computed consensus agree with the expert in a very large majority of cases

25

Thuilier, Juliette. "Contraintes préférentielles et ordre des mots en français". Phd thesis, Université Paris-Diderot - Paris VII, 2012. http://tel.archives-ouvertes.fr/tel-00781228.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse propose une approche expérimentale de la linguistique à travers l'étude de la notion de contrainte préférentielle et son application à deux phénomènes d'ordre en français : la position de l'adjectif épithète ainsi que l'ordre relatif des deux compléments sous-catégorisés par le verbe et apparaissant en position postverbale. Les contraintes préférentielles sont définies comme des contraintes qui n'affectent pas la grammaticalité mais l'acceptabilité des phrases. Nous émettons l'hypothèse selon laquelle ces contraintes constituent des propriétés spécifiques à la langue dont il faut rendre compte dans le champ de la linguistique. Sur le plan méthodologique, l'étude de ces contraintes est rendue problématique par leur nature : étant donné qu'elles n'agissent pas sur la grammaticalité des phrases, elles échappent aux méthodes traditionnelles de la syntaxe (introspection et jugement de grammaticalité). Il est donc nécessaire de définir des outils permettant leur description et leur analyse. Les méthodes envisagées sont l'analyse statistique de données de corpus, inspirée des travaux de Bresnan et al. (2007) et de Bresnan & Ford (2010), et, dans une moindre mesure, l'expérimentation psycholinguistique. En ce qui concerne la position de l'adjectif, nous testons la plupart des contraintes rencontrées dans la littérature et nous proposons une analyse statistique de données extraites du corpus French Treebank. Nous montrons notamment l'importance de l'item adjectival ainsi que de l'item nominal avec lequel il se combine. Certaines contraintes syntaxiques concernant la configuration du syntagme adjectival et du syntagme nominal jouent également un rôle dans le choix de la position. Le travail concernant l'ordre relatif des compléments du verbe est mené sur un échantillon de phrases extraites de deux corpus journalistiques (French Treebank et Est-Républicain) et de deux corpus d'oral (ESTER et C-ORAL-ROM). Nous montrons l'importante influence du poids des constituants dans le choix de l'ordre : l'ordre court avant long, caractéristique d'une langue SVO comme le français, est respecté dans plus de 86% des cas. Nous mettons également à jour le rôle fondamental du lemme verbal associé à sa classe sémantique, annotée à partir du dictionnaire de Dubois & Dubois-Charlier (1997). Enfin, en nous appuyant sur l'analyse des données de corpus ainsi que sur deux questionnaires d'élicitation de jugement d'acceptabilité, il semble que ni caractère animé, ni l'opposition 'donné/nouveau' (Prince, 1981) n'ait une influence sur l'ordre des compléments, ce qui semble aller à l'encontre d'observations faites dans d'autres langues comme l'anglais ou l'allemand.

26

Amdouni, Soumaya. "Composition de services web dans des environnements incertains". Thesis, Lyon 1, 2015. http://www.theses.fr/2015LYO10128.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse porte sur la composition des services de données et l'étude de l'impact de l'incertitude qui peut être associée à leurs données accessibles sur le processus de composition et de sélection de service. En effet, dans un contexte tel que l'Internet, il est de plus en plus reconnu que les données et les services d'accès aux données sont sujettes à des valeurs d'incertitude tout en exigeant des techniques de gestion plus sophistiquées. Dans cette thèse, nous enrichissons la description sémantique des services Web afin de refléter l'incertitude, et nous proposons de nouveaux mécanismes et modèles pour la sélection et la composition des services. Nos mécanismes sont basés sur les ensembles flous et les théories probabilistes. Tout d'abord, nous étendons notre modélisation précédente basée sur les vues RDF afin d'inclure les contraintes floues qui caractérisent les données accédées par les services. Nous proposons une algèbre de composition qui permet de classer les résultats retournés en fonction de leur pertinence par rapport aux préférences de l'utilisateur. Notre algèbre proposée repose sur les fondations de bases de données floues. En outre, nous optons pour l'approche probabiliste pour modéliser l'incertitude des données renvoyées par les services incertains. Nous étendons la description du service Web standard pour représenter les probabilités de sortie. L'invocation des services est également étendue pour tenir compte de l'incertitude. Cette extension est basée sur la théorie des mondes possibles utilisée dans les bases de données probabiliste. Nous définissons un ensemble d'opérateurs de composition qui sont nécessaires pour orchestrer les services de données. Pour chaque composition, plusieurs plans d'orchestration peuvent être possibles mais qui sont pas tous corrects, donc, nous définissons un ensemble de conditions pour vérifier si le plan est correct (Safe) ou pas. Nous fournissons une implémentation de nos différentes techniques et les appliquer aux domaines de l'immobilier et du commerce électronique. Nous implémentons ces services et nous fournissons également une étude de la performance de notre prototype de composition
In this thesis we focus on the data web services composition problem and study the impact of the uncertainty that may be associated with the output of a service on the service selection and composition processes. This work is motivated by the increasing number of application domains where data web services may return uncertain data, including the e-commerce, scientific data exploration, open web data, etc. We call such services that return uncertain data as uncertain services. In this dissertation, we propose new models and techniques for the selection and the composition of uncertain data web services. Our techniques are based on well established fuzzy and probabilistic database theories and can handle the uncertainty efficiently. First, we proposed a composition model that takes into account the user preferences. In our model, user preferences are modelled as fuzzy constraints, and services are described with fuzzy constraints to better characterize their accessed data. The composition model features also a composition algebra that allows us to rank the returned results based on their relevance to user's preferences. Second, we proposed a probabilistic approach to model the uncertainty of the data returned by uncertain data services. Specifically, we extended the web service description standards (e.g., WSDL) to represent the outputs' probabilities. We also extended the service invocation process to take into account the uncertainty of input data. This extension is based on the possible worlds theory used in the probabilistic databases. We proposed also a set of probability-aware composition operators that are necessary to orchestrate uncertain data services. Since a composition may accept multiple orchestration plans and not all of them compute the correct probabilities of outputs, we defined a set of conditions to check if a plan is safe (i.e., computes the probabilities correctly) or not. We implemented our different techniques and applied them to the real-estate and e-commerce domains. We provide a performance study of our different composition techniques

27

Gras, Benjamin. "Les oubliés de la recommandation sociale". Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0017/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Un système de recommandation a pour objectif de recommander à un utilisateur, appelé utilisateur actif, des ressources pertinentes pour lui. Le filtrage collaboratif (FC) est une approche de recommandation très répandue qui exploite les préférences exprimées par des utilisateurs sur des ressources. Le FC repose sur l'hypothèse que les préférences des utilisateurs sont cohérentes entre elles, ce qui permet d'inférer les préférences d'un utilisateur à partir des préférences des autres utilisateurs. Définissons une préférence spécifique comme une préférence qui ne serait partagée pour aucun groupe d'utilisateurs. Un utilisateur possédant plusieurs préférences spécifiques qu'il ne partage avec aucun autre utilisateur sera probablement mal servi par une approche de FC classique. Il s'agit du problème des Grey Sheep Users (GSU). Dans cette thèse, je réponds à trois questions distinctes. 1) Qu'est-ce qu'une préférence spécifique ? J'apporte une réponse en proposant des hypothèses associées que je valide expérimentalement. 2) Comment identifier les GSU dans les données ? Cette identification est importante afin d'anticiper les mauvaises recommandations qui seront fournies à ces utilisateurs. Je propose des mesures numériques permettant d'identifier les GSU dans un jeu de données de recommandation sociale. Ces mesures sont significativement plus performantes que celles de l'état de l'art. Enfin, comment modéliser ces GSU pour améliorer la qualité des recommandations qui leurs sont fournies ? Je propose des méthodes inspirées du domaine de l'apprentissage automatique et dédiées à la modélisation des GSU permettant d'améliorer la qualité des recommandations qui leurs sont fournies
A recommender system aims at providing relevant resources to a user, named the active user. To allow this recommendation, the system exploits the information it has collected about the active user or about resources. The collaborative filtering (CF) is a widely used recommandation approach. The data exploited by CF are the preferences expressed by users on resources. CF is based on the assumption that preferences are consistent between users, allowing a user's preferences to be inferred from the preferences of other users. In a CF-based recommender system, at least one user community has to share the preferences of the active user to provide him with high quality recommendations. Let us define a specific preference as a preference that is not shared by any group of user. A user with several specific preferences will likely be poorly served by a classic CF approach. This is the problem of Grey Sheep Users (GSU). In this thesis, I focus on three separate questions. 1) What is a specific preference? I give an answer by proposing associated hypotheses that I validate experimentally. 2) How to identify GSU in preference data? This identification is important to anticipate the low quality recommendations that will be provided to these users. I propose numerical indicators to identify GSU in a social recommendation dataset. These indicators outperform those of the state of the art and allow to isolate users whose quality of recommendations is very low. 3) How can I model GSU to improve the quality of the recommendations they receive? I propose new recommendation approaches to allow GSU to benefit from the opinions of other users

28

Pralet, Cédric. "Un cadre algébrique général pour représenter et résoudre des problèmes de décision séquentielle avec incertitudes, faisabilités et utilités". Toulouse, ENSAE, 2006. http://www.theses.fr/2006ESAE0013.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nombreux formalismes existent pour modéliser et résoudre des problèmes de décision séquentielle. Certains, comme les réseaux de contraintes, permettent de formuler des problèmes de décision "simples" alors que d’autres peuvent prendre en compte des données plus complexes telles que des incertitudes, des infaisabilités sur les décisions et des utilités. Diverses extensions d’un même formalisme sont de plus souvent introduites de manière à représenter l'incertain et les préférences sous des formes variées (probabilités, possibilités. . . ; utilités additives ou non. . . ). Chacun de ces formalismes est généralement équipé d’algorithmes dédiés. La première partie de cette thèse déﬁnit un cadre de représentation général qui englobe de nombreux formalismes de décision séquentielle dans l'incertain. Ce cadre, nommé cadre PFU pour "Plausibilités-Faisabilité-Utilité", repose sur trois éléments clés : (1) une structure algébrique spéciﬁant comment combiner et synthétiser des informations ; (2) des fonctions locales portant sur certaines variables et exprimant des incertitudes, des faisabilités ou des utilités; (3) une classe de requêtes sur ces fonctions locales, qui permet de modéliser des scénarios décisionnels variés en termes d’observabilité et de controlabilité. Ce travail de représentation de la connaissance est complété, dans la seconde partie de la thèse, par un travail algorithmique. Les deux types d’algorithmes développés sont des algorithmes de type élimination de variables et de type recherche arborescente avec bornes et techniques de mémorisation. Nous montrons également qu’il est possible d’utiliser une architecture de calcul générale qui exploite la structure des requêtes considérées pour les décomposer en calcul locaux. En uniﬁant des formalismes variés, le cadre PFU apporte une meilleure compréhension des liens entre certains formalismes. Il n’est pas qu’un cadre uniﬁcateur étant donné que certaines de ces intanciations correspondent à de nouveaux formalismes. Enﬁn, il permet de déﬁnir des algorithmes génériques qui sont soit des généralisations d'algorithmes existants soit des techniques nouvelles applicables directement aux formalismes couverts.

29

Abidi, Amna. "Imperfect RDF Databases : From Modelling to Querying". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2019. http://www.theses.fr/2019ESMA0008/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L’intérêt sans cesse croissant des données RDF disponibles sur le Web a conduit à l’émergence de multiple et importants efforts de recherche pour enrichir le formalisme traditionnel des données RDF à des fins d’exploitation et d’analyse. Le travail de cette thèse s’inscrit dans la continuation de ces efforts en abordant la problématique de la gestion des données RDF en présence d’imperfections (manque de confiance/validité, incertitude, etc.). Les contributions de la thèse sont comme suit: (1) Nous avons proposé d’appliquer l’opérateur skyline sur les données RDF pondérées par des mesures de confiance (Trust-RDF) dans le but d’extraire les ressources les plus confiantes selon des critères définis par l’utilisateur. (2) Nous avons discuté via des méthodes statistiques l’impact des mesures de confiance sur le Trust-skyline.(3) Nous avons intégré à la structure des données RDF un quatrième élément, exprimant une mesure de possibilité. Pour gérer cette mesure de possibilité, un cadre langagier appropriée est étudié, à savoir Pi-SPARQL, qui étend le langage SPARQL aux requêtes permettant de traiter des distributions de possibilités. (4) Nous avons étudié une variante d’opérateur skyline pour extraire les ressources RDF possibilistes qui ne sont éventuellement dominées par aucune autre ressource dans le sens de l’optimalité de Pareto
The ever-increasing interest of RDF data on the Web has led to several and important research efforts to enrich traditional RDF data formalism for the exploitation and analysis purpose. The work of this thesis is a part of the continuation of those efforts by addressing the issue of RDF data management in presence of imperfection (untruthfulness, uncertainty, etc.). The main contributions of this dissertation are as follows. (1) We tackled the trusted RDF data model. Hence, we proposed to extend the skyline queries over trust RDF data, which consists in extracting the most interesting trusted resources according to user-defined criteria. (2) We studied via statistical methods the impact of the trust measure on the Trust-skyline set.(3) We integrated in the structure of RDF data (i.e., subject-property-object triple) a fourth element expressing a possibility measure to reflect the user opinion about the truth of a statement.To deal with possibility requirements, appropriate framework related to language is introduced, namely Pi-SPARQL, that extends SPARQL to be possibility-aware query language.Finally, we studied a new skyline operator variant to extract possibilistic RDF resources that are possibly dominated by no other resources in the sense of Pareto optimality

30

Ben, Messaoud Rim. "Towards efficient mobile crowdsensing assignment and uploading schemes". Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1031/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L’ubiquité des terminaux intelligents équipés de capteurs a donné naissance à un nouveau paradigme de collecte participative des données appelé Crowdsensing. Pour mener à bien les tâches de collecte, divers défis relatifs à l’implication des participants et des demandeurs de services doivent être relevés. Dans ce contexte, nous abordons quatre questions majeures inhérentes à ce problème: Comment affecter les tâches de collecte afin de maximiser la qualité des données d’une façon éco-énergétique ? Comment minimiser le temps nécessaire à la collecte et au traitement des tâches? Comment inciter les participants à dédier une partie de leurs ressources pour la collecte? et Comment protéger la vie privée des participants tout en préservant la qualité des données reportées ? Tout d’abord, nous nous intéressons au fait que les ressources énergétiques des terminaux mobiles restent limitées. Nous introduisons alors des modèles de déploiement de tâches qui visent à maximiser la qualité des données reportées tout en minimisant le coût énergétique global de la collecte. Ainsi, notre première contribution se matérialise en un modèle d’allocation appelé, QEMSS. QEMSS définit des métriques de qualité de données et cherche à les maximiser en se basant sur des heuristiques utilisant la recherche taboue. De plus, afin de rendre le processus d’allocation résultante plus équitable, nous faisons appel à un deuxième algorithme, F-QEMSS, extension de QEMSS. Les deux solutions ont permis d’obtenir des niveaux de qualité de données compétitifs principalement dans les situations défavorables des zones de faible densité ou de ressources limitées. En outre, afin de minimiser le temps moyen de collecte et de traitement des données, une deuxième phase d’allocation distribuée est ajoutée. Plus précisément, nous proposons dans cette deuxième contribution de désigner des participants responsables de déléguer des tâches. Ces derniers prédisent le comportement d’autres utilisateurs en termes de mobilité et de préférences de collecte. Par conséquent, nous développons deux types d’allocation; MATA qui ne tient compte que de la mobilité et P-MATA qui tient compte à la fois de la mobilité et des préférences des participants. Les deux allocations démontrent que l’estimation des préférences des utilisateurs minimise le temps de collecte et évite le rejet des tâches. La troisième contribution de cette thèse, IP-MATA+, propose des incitations aux participants, ce qui favorise leur engagement aux campagnes de collecte notamment quand le budget dédié est partagé en fonction de la qualité des contributions. Pour finir, nous considérons la problématique de la vie privée des participants au crowdsensing. Particulièrement, nous ciblons la minimisation du risque de divulgation de la vie privée durant la phase du déchargement tout en veillant à l’utilité des données collectées. Ainsi, la quatrième contribution de cette thèse vise à assurer simultanément deux objectifs concurrents, à savoir assurer l’utilité des données nécessaire aux demandeurs et protéger les informations sensibles des participants. Pour ce faire, nous introduisons une entité de confiance dans le système de collecte ayant pour rôle d’exécuter un mécanisme qui génère une version altérée de la donnée collectée qui répond au compromis de protection et d’utilité. La solution développée, appelée PRUM, a été évaluée sur des datasets de collecte participative en variant les scénarios d’attaque et de déchargement des données. Les résultats obtenus prouvent qu’une altération limitée des données collectées peut assurer une protection des informations sensibles des participants tout en préservant environ 98% de l’utilité des données obtenue pour les demandeurs. Pour conclure, nos contributions abordent diverses problématiques complémentaires inhérentes à la collecte participative des données ouvrant la voie à des mises en œuvre réelles et facilitant leur déploiement
The ubiquity of sensors-equipped mobile devices has enabled people to contribute data via crowdsensing systems. This emergent paradigm comes with various applications. However, new challenges arise given users involvement in data collection process. In this context, we introduce collaborative sensing schemes which tackle four main questions: How to assign sensing tasks to maximize data quality with energy-awareness? How to minimize the processing time of sensing tasks? How to motivate users to dedicate part of their resources to the crowdsensing process ? and How to protect participants privacy and not impact data utility when reporting collected sensory data ? First, we focus on the fact that smart devices are energy-constrained and develop task assignment methods that aim to maximize sensor data quality while minimizing the overall energy consumption of the data harvesting process. The resulting contribution materialized as a Quality and Energy-aware Mobile Sensing Scheme (QEMSS) defines first data quality metrics then models and solves the corresponding optimization problem using a Tabu-Search based heuristic. Moreover, we assess the fairness of the resulted scheduling by introducing F-QEMSS variant. Through extensive simulations, we show that both solutions have achieved competitive data quality levels when compared to concurrent methods especially in situations where the process is facing low dense sensing areas and resources shortcomings. As a second contribution, we propose to distribute the assignment process among participants to minimize the average sensing time and processing overload com- pared to a fully centralized approach. Thus, we suggest to designate some participants to carry extra sensing tasks and delegate them to appropriate neighbors. The new assign- ment is based on predicting users local mobility and sensing preferences. Accordingly, we develop two new greedy-based assignment schemes, one only Mobility-aware (MATA) and the other one accounting for both preferences and mobility (P-MATA), and evaluate their performances. Both MATA and P-MATA consider a voluntary sensing process and show that accounting for users preferences minimize the sensing time. Having showing that, our third contribution in this thesis is conceived as an Incentives-based variant, IP-MATA+. IP-MATA+ incorporates rewards in the users choice model and proves their positive impact on enhancing their commitment especially when the dedicated budget is shared function of contributed data quality. Finally, our fourth and last contribution addresses the seizing of users privacy concerns within crowdsensing systems. More specifically, we study the minimization of the incurred privacy leakage in data uploading phase while accounting for the possible quality regression. That is, we assess simultaneously the two competing goals of ensuring queriers required data utility and protecting participants’ sensitive information. Thus, we introduce a trust entity to the crowdsensing traditional system. This entity runs a general privacy-preserving mechanism to release a distorted version of sensed data that responds to a privacy-utility trade-off. The proposed mechanism, called PRUM, is evaluated on three sensing datasets, different adversary models and two main data uploading scenarios. Results show that a limited distortion on collected data may ensure privacy while maintaining about 98% of the required utility level.The four contributions of this thesis tackle competing issues in crowdsensing which paves the way at facilitating its real implementation and aims at broader deployment

31

Marsaudon, Antoine. "Impact of health shocks on personality traits, economic preferences, and risky behaviors". Thesis, Paris 1, 2019. http://www.theses.fr/2019PA01E013.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Pour limiter l'incidence croissante des maladies chroniques, un grand nombre de pays de l'OCDE ont mis en place des politiques de prévention et d'information axées sur les changements de comportement de santé. Toutefois, ces mesures peuvent encore être améliorées car certaines des populations à risque peinent à modifier significativement et durablement leur comportement. Au-delà des différences interindividuelles sur lesquelles sont fondées la plupart de ces interventions, les variations intra-individuelles sont également à considérer lors de l'élaboration des politiques publiques. L'expérience du système de santé a-t-elle induit un changement des préférences ou des traits de personnalité de l'individu ? Ces deux paramètres se forment-ils après avoir connu un événement de santé important ? En utilisant des données de panel et en mobilisant les outils économétriques, les résultats montrent que les individus ayant connu un événement important de santé vont modifier, sensiblement, certain de leurs traits de personnalité (chapitre 1). À l'inverse, un tel événement n'induit pas de changement dans les préférences économiques (chapitre 2). Ainsi, un événement de santé n'est pas être déterminant dans la formation des préférences, mais l'est pour certains traits de personnalité. Les préférences économiques ne sont pas non plus déterminées in-utero (chapitre 3). Par ailleurs, les individus subissant un événement de santé adoptent de meilleurs comportements de santé (chapitre 4)
This PhD dissertation aims to document whether personality traits and economic preferences are stable parameters after the occurrence of a significant health event. Given the massive impacts of traits and preferences on life outcomes, it is necessary to provide information as to how much these can change. Results show that traits are slightly modified when individuals face a health event (Chapter 1). Economic preferences, however, do not change after the occurrence of such events (Chapter 2). The finding that preferences are stable might call for a genetic transmission of these parameters. However, results show that economic preferences are not determined in-utero (Chapter 3). Additionally, individuals facing health events are more likely to adopt healthier behaviors than those who do not face such events (Chapter 4). These findings can be used by economic researchers and policymakers. For the former, relying solely upon individual fixed-effect estimations or first difference methods might not account for trait variation. For the latter, changes in traits might modify the willingness to invest in various health, education and labor outcomes, subsequently influencing macroeconomic performance

32

Tapucu, Dilek. "Un modèle générique pour la capture de préférences dans les bases de données à base ontologique". Phd thesis, 2010. http://tel.archives-ouvertes.fr/tel-00518476.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, les systèmes d'information gèrent de volumineuses données. Avec l'avènement du Web Sémantique, la quantité de données ontologiques (ou instances) disponibles s'est accrue. Permettre un accès personnalisé à ces données est devenue cruciale. Les utilisateurs sont submergés par les nombreux résultats fournis en réponse à leurs requêtes. Pour être utilisable, ces résultats doivent être filtrées et ordonnées. La capture et l'exploitation des préférences utilisateurs ont été proposées comme une solution à ce problème. Cependant, les approches existantes définissent habituellement les préférences pour une application donnée. Il est ainsi difficile de partager et réutiliser dans d'autres contextes les préférences capturées. Nous proposons une approche basée sur plusieurs modèles proposés au sein des communautés Bases de Données et Web Sémantique. Elle définit un model partageable et générique pour représenter les préférences utilisateurs, et incorpore plusieurs types de préférences de la littérature qui sont traités de manière séparée. L'idée sous-jacente à notre approche est de traiter les préférences de manière modulaire en les liant aux ontologies qui décrivent la sémantique des données gérées par les applications. Ainsi leur prise en compte se fait au niveau ontologique et non au niveau logique des données. La nouveauté de l'approche est que les préférences définies sont attachées aux ontologies, qui décrivent la sémantique des données manipulées par les applications. Le modèle de préférence est formellement défini en utilisant le langage de modélisation des données EXPRESS de manière à éviter toute ambiguïté du modèle. Par ailleurs, le modèle proposé offre un mécanisme de persistance et un langage d'interrogation dédié. Il est implémenté en utilisant un système de Bases de Données à Base Ontologique (BDBO) qui permet de gérer à la fois les ontologies et les données instances. Ceci permet d'offrir une description sémantique des préférences. Nous avons étendu le modèle des BDBO afin de supporter la prise en compte des préférences. L'implémentation a été faite dans le cadre de la BDBO OntoDB pour laquelle nous avons étendu le langage d'interrogation associé OntoQL. L'approche est illustrée à travers un cas d'étude dans le domaine du tourisme.

Tesi sul tema "Données de préférence"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili