Dissertations / Theses: 'Qualité des données et des informations'

1

Le, conte des floris Robin. "Effet des biais cognitifs et de l'environnement sur la qualité des données et des informations." Electronic Thesis or Diss., Université Paris sciences et lettres, 2024. http://www.theses.fr/2024UPSLM004.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Du point de vue du philosophe Friedrich Nietzsche, il n’y a pas de réalité qui existe en soi, pas de fait brut, pas de réalité absolue : tout ce que nous définissons comme étant la réalité n’est, en fait, que le résultat de processus d’interprétation qui nous sont propres. Or, les données stockées sur les systèmes d’information ne sont souvent rien d’autre que la représentation codée de déclarations émises par des êtres humains, relevant donc intrinsèquement de l’interprétation humaine et étant par conséquent affectées par les mêmes biais et limites qui caractérisent la psyché humaine. Cette thèse propose un nouveau cadre conceptuel, le modèle "Data Binding and Reification" (DBR), qui décrit le processus d’interprétation des données, puis de réification de l’information, en utilisant une nouvelle approche qui place les mécanismes de perception humaine au cœur de celui-ci. En mobilisant les sciences cognitives et comportementales, cette approche permet d’identifier dans quelle mesure l’intervention de l’homme et la structure de l’environnement auquel il est soumis conditionnent l’apparition de biais cognitifs affectant ces processus. Les résultats expérimentaux valident partiellement ce modèle en identifiant les caractéristiques de l’environnement affectant, dans un contexte organisationnel, le processus de collecte de données et la qualité des informations produites. Ces travaux ouvrent de nombreuses perspectives, telles que l’élaboration d’une architecture de choix au sens de l’économiste Richard Thaler, pouvant améliorer le processus même de collecte de données en modifiant l’expérience des utilisateurs du système d’information
From the perspective of philosopher Friedrich Nietzsche, there is no reality that exists in itself, no raw fact, no absolute reality: everything that we define as reality is, in fact, only the result of interpretation processes that are unique to us. Mo-reover, the data stored in information systems is often nothing more than the coded representation of statements made by human beings, thereby inherently involving human interpretation and consequently being affected by the same biases and limitations that characterize the human psyche. This thesis introduces a new conceptual framework, the "Data binding and reification" (DBR) model, that describes the process of data interpretation, and then the reification of information, using a new approach that places human-perception mechanisms at the heart of this process. By mobilizing cognitive and beha-vioral sciences, this approach allows us to identify to what extent human intervention and the structure of the environment to which one is subjected condition the emergence of cognitive biases affecting these processes. Experimental results partially validate this model by identifying the characteristics of the environment that affect, in an organizational context, the data-collection process and the quality of the information produced. This work opens up numerous perspectives, such as the development of a choice architecture in the sense of the economist Richard Thaler, which could improve the very process of data collection by modifying the experience of users of the information system

2

Ravi, Mondi. "Confiance et incertitude dans les environnements distribués : application à la gestion des donnéeset de la qualité des sources de données dans les systèmes M2M (Machine to Machine)." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM090/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La confiance et l'incertitude sont deux aspects importants des systèmes distribués. Par exemple, de multiples sources d'information peuvent fournir le même type d'information. Cela pose le problème de sélectionner la source la plus fiable et de résoudre l'incohérence dans l'information disponible. Gérer de front la confiance et l'incertitude constitue un problème complexe et nous développons à travers cette thèse, une solution pour y répondre. La confiance et l'incertitude sont intrinsèquement liés. La confiance concerne principalement les sources d'information alors que l'incertitude est une caractéristique de l'information elle-même. En l'absence de mesures de confiance et d'incertitude, un système doit généralement faire face à des problèmes tels que l'incohérence et l'incertitude. Pour aborder ce point, nous émettons l'hypothèse que les sources dont les niveaux de confiance sont élevés produiront de l'information plus fiable que les sources dont les niveaux de confiance sont inférieurs. Nous utilisons ensuite les mesures de confiance des sources pour quantifier l'incertitude dans l'information et ainsi obtenir des conclusions de plus haut niveau avec plus de certitude.Une tendance générale dans les systèmes distribués modernes consiste à intégrer des capacités de raisonnement dans les composants pour les rendre intelligents et autonomes. Nous modélisons ces composants comme des agents d'un système multi-agents. Les principales sources d'information de ces agents sont les autres agents, et ces derniers peuvent posséder des niveaux de confiance différents. De plus, l'information entrante et les croyances qui en découlent sont associées à un degré d'incertitude. Par conséquent, les agents sont confrontés à un double problème: celui de la gestion de la confiance sur les sources et celui de la présence de l'incertitude dans l'information. Nous illustrons cela avec trois domaines d'application: (i) la communauté intelligente, (ii) la collecte des déchets dans une ville intelligente, et (iii) les facilitateurs pour les systèmes de l'internet du futur (FIWARE - le projet européen n° 285248, qui a motivé la recherche sur nos travaux). La solution que nous proposons consiste à modéliser les composants de ces domaines comme des agents intelligents qui incluent un module de gestion de la confiance, un moteur d'inférence et un système de révision des croyances. Nous montrons que cet ensemble d'éléments peut aider les agents à gérer la confiance aux autres sources, à quantifier l'incertitude dans l'information et à l'utiliser pour aboutir à certaines conclusions de plus haut niveau. Nous évaluons finalement notre approche en utilisant des données à la fois simulées et réelles relatives aux différents domaines d'application
Trust and uncertainty are two important aspects of many distributed systems. For example, multiple sources of information can be available for the same type of information. This poses the problem to select the best source that can produce the most certain information and to resolve incoherence amongst the available information. Managing trust and uncertainty together forms a complex problem and through this thesis we develop a solution to this. Trust and uncertainty have an intrinsic relationship. Trust is primarily related to sources of information while uncertainty is a characteristic of the information itself. In the absence of trust and uncertainty measures, a system generally suffers from problems like incoherence and uncertainty. To improve on this, we hypothesize that the sources with higher trust levels will produce more certain information than those with lower trust values. We then use the trust measures of the information sources to quantify uncertainty in the information and thereby infer high level conclusions with greater certainty.A general trend in the modern distributed systems is to embed reasoning capabilities in the end devices to make them smart and autonomous. We model these end devices as agents of a Multi Agent System. Major sources of beliefs for such agents are external information sources that can possess varying trust levels. Moreover, the incoming information and beliefs are associated with a degree of uncertainty. Hence, the agents face two-fold problems of managing trust on sources and presence of uncertainty in the information. We illustrate this with three application domains: (i) The intelligent community, (ii) Smart city garbage collection, and (iii) FIWARE : a European project about the Future Internet that motivated the research on this topic. Our solution to the problem involves modelling the devices (or entities) of these domains as intelligent agents that comprise a trust management module, an inference engine and a belief revision system. We show that this set of components can help agents to manage trust on the other sources and quantify uncertainty in the information and then use this to infer more certain high level conclusions. We finally assess our approach using simulated and real data pertaining to the different application domains

3

Boydens, Isabelle. "Evaluer et améliorer la qualité de l'information: herméneutique des bases de données administratives." Doctoral thesis, Universite Libre de Bruxelles, 1998. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/212039.

Full text

APA, Harvard, Vancouver, ISO, and other styles

4

Mantilla, Morales Gabriela. "Modélisation des transferts de nitrates, confrontation des concepts, des données et des informations : application au bassin de la Charente." Phd thesis, Ecole Nationale des Ponts et Chaussées, 1995. http://pastel.archives-ouvertes.fr/pastel-00569426.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La modélisation du transfert de nitrates a été étudiée à différentes échelles de bassins versants. Un modèle semi-distribué à pas de temps journalier a été élaboré et testé sur des sous-bassins de la Charente (France). Il prend en compte les transferts d'azote depuis les apports de fertilisants jusqu'à la dénitrification dans le cours d'eau. Le but principal recherché est la simulation de la concentration en nitrates à l'exutoire des bassins versants. Un modèle hydrologique de type conceptuel (GR3) a été choisi et adapté à la simulation du transfert de nitrates. Le modèle conceptuel de lessivage est relié de manière étroite au modèle pluie - débit, tant par les variables d'état que par les paramètres. Le calage a été fait sur les sous-bassins où sont connus, à la fois, les débits et les concentrations. L'utilisation du modèle est ensuite étendue à des bassins sur lesquels on ne dispose que d'un seul de ces deux termes ou bien d'aucun d'entre eux. Le modèle résultant de ces travaux a été appliqué à la fois sur un grand bassin versant d'environ 9500 km2 (la Charente), sur ses stations intermédiaires de suivi de qualité de l'eau et sur un petit sous-bassin expérimental d'environ 5,5 km2 (le Ruiné). Les résultats montrent que le modèle reproduit d'une manière correcte la tendance à long terme des flux. Les variations saisonnières sont bien respectées pour la plupart des stations à défaut de rendre compte de toutes les valeurs isolées. Le comportement de la concentration en nitrates pendant les crues a été étudié sur le Ruiné à un pas de temps horaire. Nous avons observé, dans la relation avec les débits, des formes d'hystérésis analogues à celles qui se présentent avec les matières en suspension, ce qui témoigne de la complexité des phénomènes de lessivage et de transfert dans ce bassin versant. Ces processus ne peuvent être convenablement reproduits à l'heure actuelle, qu'au prix d'une variation des paramètres du modèle qu'il reste encore à expliquer.

5

Merino, Laso Pedro. "Détection de dysfonctionements et d'actes malveillants basée sur des modèles de qualité de données multi-capteurs." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0056/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les systèmes navals représentent une infrastructure stratégique pour le commerce international et les activités militaires. Ces systèmes sont de plus en plus informatisés afin de réaliser une navigation optimale et sécurisée. Pour atteindre cet objectif, une grande variété de systèmes embarqués génèrent différentes informations sur la navigation et l'état des composants, ce qui permet le contrôle et le monitoring à distance. Du fait de leur importance et de leur informatisation, les systèmes navals sont devenus une cible privilégiée des pirates informatiques. Par ailleurs, la mer est un environnement rude et incertain qui peut produire des dysfonctionnements. En conséquence, la prise de décisions basée sur des fausses informations à cause des anomalies, peut être à l'origine de répercussions potentiellement catastrophiques.Du fait des caractéristiques particulières de ces systèmes, les méthodologies classiques de détection d'anomalies ne peuvent pas être appliquées tel que conçues originalement. Dans cette thèse nous proposons les mesures de qualité comme une potentielle alternative. Une méthodologie adaptée aux systèmes cyber-physiques a été définie pour évaluer la qualité des flux de données générés par les composants de ces systèmes. À partir de ces mesures, une nouvelle approche pour l'analyse de scénarios fonctionnels a été développée. Des niveaux d'acceptation bornent les états de normalité et détectent des mesures aberrantes. Les anomalies examinées par composant permettent de catégoriser les détections et de les associer aux catégories définies par le modèle proposé. L'application des travaux à 13 scénarios créés pour une plate-forme composée par deux cuves et à 11 scénarios pour deux drones aériens a servi à démontrer la pertinence et l'intérêt de ces travaux
Naval systems represent a strategic infrastructure for international commerce and military activity. Their protection is thus an issue of major importance. Naval systems are increasingly computerized in order to perform an optimal and secure navigation. To attain this objective, on board vessel sensor systems provide navigation information to be monitored and controlled from distant computers. Because of their importance and computerization, naval systems have become a target for hackers. Maritime vessels also work in a harsh and uncertain operational environments that produce failures. Navigation decision-making based on wrongly understood anomalies can be potentially catastrophic.Due to the particular characteristics of naval systems, the existing detection methodologies can't be applied. We propose quality evaluation and analysis as an alternative. The novelty of quality applications on cyber-physical systems shows the need for a general methodology, which is conceived and examined in this dissertation, to evaluate the quality of generated data streams. Identified quality elements allow introducing an original approach to detect malicious acts and failures. It consists of two processing stages: first an evaluation of quality; followed by the determination of agreement limits, compliant with normal states to identify and categorize anomalies. The study cases of 13 scenarios for a simulator training platform of fuel tanks and 11 scenarios for two aerial drones illustrate the interest and relevance of the obtained results

6

Kerrouche, Abdelali. "Routage des données dans les réseaux centrés sur les contenus." Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1119/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les Réseaux Orientés Contenus (Information Centric Networking (ICN)) représentent un nouveau paradigme qui se développe de plus en plus dans le monde de l’Internet. Ils mettent en avant de nouvelles approches centrées sur le contenu pour concevoir une nouvelle architecture pour le réseau Internet du futur dont l’usage bascule aujourd’hui d’une communication orientée machines (hosts) vers une distribution et une récupération de contenus à large échelle.Dans ce cadre, plusieurs architectures de type ICN ont été proposées par la communauté scientifique dans le cadre de plusieurs projets internationaux : DONA, PURSUIT, SAIL, COMET, CONVERGENCE, Named Data Networking (NDN), etc.Nos travaux de thèse se sont focalisés sur la problématique du routage dans les réseaux de ce type, au travers d’une architecture de type NDN qui représente aujourd’hui une des architectures ICN les plus évoluées.En particulier, nous nous sommes intéressés à concevoir et à mettre en œuvre des solutions de routage qui intègrent les métriques de qualité de service (QdS) dans les architectures NDN au regard de usages courants dans le réseau Internet. Celui-ci est en effet caractérisé par une hétérogénéité des liaisons et des conditions de trafic hautement dynamiques.Dans ce type d’architectures, la diffusion des paquets de données est organisée en deux plans : le plande routage et le plan d’acheminement. Ce dernier est responsable de l’acheminement des paquets sur l’ensemble des chemins disponibles au moyen d’une stratégie identifiée en amont. Le plan du routage est quant à lui utilisé uniquement pour soutenir le plan d’acheminement. De fait, les solutions que nous proposons consistent en de nouvelles stratégies d’acheminement avec QdS que nous qualifions d’adaptatives. Ces stratégies sont capables de transmettre les paquets sur de multiples chemins tout en considérant les paramètres de QdS liés à l’état du réseau et collectés en temps réel.La première approche proposée est conçue sur la base d’une méthode d’apprentissage inductif,du type Q-learning en ligne, et est utilisée pour estimer les informations collectées sur l’état dynamique du réseau.La deuxième contribution consiste dans une stratégie d’acheminement adaptatif conçue pour les architectures NDN et prenant en compte les métriques liées à la QdS. Elle est basée sur les similarités entre le processus d’acheminement des paquets dans les architectures NDN et le comportement des fourmis lors de la recherche du plus court chemin entre leur nid et les sources de nourriture. Les techniques utilisées pour concevoir cette stratégie sont inspirées des approches d’optimisation utilisées dans les algorithmes de type « colonies de fourmis ».Enfin, dans la dernière partie de la thèse, nous généralisons l’approche décrite ci-dessus pour l’étendre à la prise en compte simultanée de plusieurs paramètres de QdS. Sur la base de ces mêmes principes, cette approche a ensuite été étendue à la résolution des problèmes liés à la congestion.Les résultats obtenus montrent l’efficacité des solutions proposées dans une architecture NDN et permettent ainsi de considérer les paramètres de QdS dans les mécanismes d’acheminement des paquets ouvrant la voie à diverses applications orientées contenus sur ce type d’architecture
The Information Centric Networking (ICN) represents a new paradigm that is increasingly developed within the Internet world. It brings forward new content-centric based approaches, in order to design a new architecture for the future Internet, whose usage today shifts from a machine oriented communication (hosts) to a large-scale content distribution and retrieval.In this context, several ICN architectures have been proposed by the scientific community, within several international projects: DONA, PURSUIT, SAIL, COMET, CONVERGENCE, Named Data Networking (NDN), etc.Our thesis work has focused on the problems of routing in such networks, through a NDN architecture, which represents one of the most advanced ICN architectures nowadays.In particular, we were interested in designing and implementing routing solutions that integrate quality-of-service metrics (QoS) in the NDN architecture in terms of current Internet usage. This latter is indeed characterized by a heterogeneity of connections and highly dynamic traffic conditions.In this type of architecture, data packets broadcast is organized in two levels: the routing planand the forwarding plane. The latter is responsible for routing packets on all available paths through an identified upstream strategy. The routing plan is meanwhile used only to support the forwarding plane. In fact, our solutions consist of new QoS routing strategies which we describe as adaptive. These strategies can transmit packets over multiple paths while taking into account the QoS parameters related to the state of the network and collected in real time.The first proposed approach is designed on the basis of a on-line Q-learn type inductive learning method, and is used to estimate the information collected on the dynamic state of the network.The second contribution is an adaptive routing strategy designed for NDN architectures which considers the metrics related to QoS. It is based on the similarities between the packet forwarding process in the NDN architecture and the behavior of ants when finding the shortest path between their nest and food sources. The techniques used to design this strategy are based on optimization approaches used "ant colonies" algorithms.Finally, in the last part of the thesis, we generalize the approach described above to extend it to the simultaneous consideration of several QoS parameters. Based on these principles, this approach was later extended to solving problems related to congestion.The results show the effectiveness of the proposed solutions in an NDN architecture and thus allow to consider QoS parameters in packet delivery mechanisms paving the way for various content-oriented applications on this architecture

7

Glele, Ahanhanzo Yolaine. "Qualité des données dans le système d'information sanitaire de routine et facteurs associés au Bénin: place de l'engagement au travail." Doctoral thesis, Universite Libre de Bruxelles, 2014. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/209216.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La qualité des données est un enjeu essentiel dans les systèmes d’information sanitaire vue l’importance de ces derniers pour la prise de décision. Ce travail de recherche a un objectif double :i) d’une part, celui de mesurer la qualité des données dans le système d’information sanitaire de routine au Bénin, et, ii) d’autre part, celui d’identifier les facteurs associés à cette qualité des données en déterminant la place de l’engagement au travail au sein de ces interactions. Le but visé est finalement de fournir des outils opérationnels et des pistes de réflexion pour la santé publique et dans le domaine la recherche, pour l’amélioration de la qualité des données.

Dans les centres de santé de 1er échelon des départements de l’Atlantique et du Littoral, au sud du Bénin, nous avons développé six études pour atteindre les objectifs de recherche. Les études 1 et 2 basées respectivement sur les méthodologies lot quality assurance sampling et capture recapture sont destinées à mesurer la qualité des données. Les études 3 et 4, transversales, analysent l’engagement au travail des agents de santé responsables du SISR au niveau opérationnel. Les études 5 et 6, respectivement transversale et prospective, identifient les facteurs associés à la qualité des données.

Il ressort de ces analyses que :

•\
Doctorat en Sciences de la santé publique
info:eu-repo/semantics/nonPublished

8

Ben, Khedher Anis. "Amélioration de la qualité des données produits échangées entre l'ingénierie et la production à travers l'intégration de systèmes d'information dédiés." Thesis, Lyon 2, 2012. http://www.theses.fr/2012LYO20012.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail présenté dans ce mémoire de thèse apporte sa contribution à l'amélioration de la qualité des données échangées entre la production et les services d'ingénierie dédiés à la conception du produit et du système de production associé. Cette amélioration de la qualité des données passe par l'étude des interactions entre la gestion du cycle de vie du produit et la gestion de la production.Ces deux concepts étant supportés, tout ou partie, par des systèmes d'information industriels, l'étude de leurs interactions a ensuite conduit à l'intégration de ces systèmes d'information (PLM, ERP et MES). Dans un contexte de forte concurrence et de mondialisation, les entreprises sont obligées d'innover et de minimiser les coûts, notamment ceux de production. Face à ces enjeux, le volume des données de production et leur fréquence de modification ne cessent d'augmenter en raison de la réduction constante de la durée de vie et de mise sur le marché des produits, de la personnalisation accrue des produits et en n de la généralisation des démarches d'amélioration continue en production. La conséquence directe est alors la nécessité de formaliser et de gérer l'ensemble des données de production devant être fournies aux opérateurs de production et aux machines. Suite à une analyse du point de vue de la qualité des données pour chaque architecture existante démontrant ainsi leur incapacité à répondre à cette problématique, une architecture basée sur l'intégration des trois systèmes d'information directement impliqués dans la production (PLM, ERP et MES) a été proposée. Cette architecture nous a menés à deux sous-problématiques complémentaires qui sont respectivement la construction d'une architecture basée sur des Web Services permettant d'améliorer l'accessibilité, la sécurité et la complétude des données échangées, et la construction d'une architecture d'intégration, basée sur les ontologies, permettant d'offrir des mécanismes d'intégration basés sur la sémantique dans le but d'assurer la bonne interprétation des données échangées.Enfin, la maquette de l'outil logiciel supportant la solution proposée et permettant d'assurer l'intégration des données échangées entre ingénierie et production a été réalisée
The research work contributes to improve the quality of data exchanged between the production and the engineering units which dedicated to product design and production system design. This improvement is qualified by studying the interactions between the product life cycle management and the production management. These two concepts are supported, wholly or partly by industrial information systems, the study of the interactions then lead to the integration of information systems (PLM, ERP and MES).In a highly competitive environment and globalization, companies are forced to innovate and reduce costs, especially the production costs. Facing with these challenges, the volume and frequency change of production data are increasing due to the steady reduction of the lifetime and the products marketing, the increasing of product customization and the generalization of continuous improvement in production. Consequently, the need to formalize and manage all production data is required. These data should be provided to the production operators and machines.After analysis the data quality for each existing architecture demonstrating the inability to address this problem, an architecture, based on the integration of three information systems involved in the production (PLM, ERP and MES) has been proposed. This architecture leads to two complementary sub-problems. The first one is the development of an architecture based on Web services to improve the accessibility, safety and completeness of data exchanged. The second is the integration architecture of integration based on ontologies to offer the integration mechanisms based on the semantics in order to ensure the correct interpretation of the data exchanged. Therefore, the model of the software tool supports the proposed solution and ensures that integration of data exchanged between engineering and production was carried out

9

Michel, Pierre. "Sélection d'items en classification non supervisée et questionnaires informatisés adaptatifs : applications à des données de qualité de vie liée à la santé." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM4097/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Un questionnaire adaptatif fournit une mesure valide de la qualité de vie des patients et réduit le nombre d'items à remplir. Cette approche est dépendante des modèles utilisés, basés sur des hypothèses parfois non vérifiables. Nous proposons une approche alternative basée sur les arbres de décision. Cette approche n'est basée sur aucune hypothèse et requiert moins de temps de calcul pour l'administration des items. Nous présentons différentes simulations qui démontrent la pertinence de notre approche. Nous présentons une méthode de classification non supervisée appelée CUBT. CUBT comprend trois étapes pour obtenir une partition optimale d'un jeu de données. La première étape construit un arbre en divisant récursivement le jeu de données. La deuxième étape regroupe les paires de noeuds terminaux de l'arbre. La troisième étape agrège des nœuds terminaux qui ne sont pas issus de la même division. Différentes simulations sont présentés pour comparer CUBT avec d'autres approches. Nous définissons également des heuristiques concernant le choix des paramètres de CUBT. CUBT identifie les variables qui sont actives dans la construction de l'arbre. Cependant, bien que certaines variables peuvent être sans importance, elles peuvent être compétitives pour les variables actives. Il est essentiel de classer les variables en fonction d'un score d'importance pour déterminer leur pertinence dans un modèle donné. Nous présentons une méthode pour mesurer l'importance des variables basée sur CUBT et les divisions binaires compétitives pour définir un score d'importance des variables. Nous analysons l'efficacité et la stabilité de ce nouvel indice, en le comparant à d'autres méthodes
An adaptive test provides a valid measure of quality of life of patients and reduces the number of items to be filled. This approach is dependent on the models used, sometimes based on unverifiable assumptions. We propose an alternative approach based on decision trees. This approach is not based on any assumptions and requires less calculation time for item administration. We present different simulations that demonstrate the relevance of our approach.We present an unsupervised classification method called CUBT. CUBT includes three steps to obtain an optimal partition of a data set. The first step grows a tree by recursively dividing the data set. The second step groups together the pairs of terminal nodes of the tree. The third step aggregates terminal nodes that do not come from the same split. Different simulations are presented to compare CUBT with other approaches. We also define heuristics for the choice of CUBT parameters.CUBT identifies the variables that are active in the construction of the tree. However, although some variables may be irrelevant, they may be competitive for the active variables. It is essential to rank the variables according to an importance score to determine their relevance in a given model. We present a method to measure the importance of variables based on CUBT and competitive binary splis to define a score of variable importance. We analyze the efficiency and stability of this new index, comparing it with other methods

10

Guemeida, Abdelbasset. "Contributions à une nouvelle approche de Recherche d'Information basée sur la métaphore de l'impédance et illustrée sur le domaine de la santé." Phd thesis, Université Paris-Est, 2009. http://tel.archives-ouvertes.fr/tel-00581322.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les récentes évolutions dans les technologies de l'information et de la communication, avec le développement de l'Internet, conduisent à l'explosion des volumes des sources de données. Des nouveaux besoins en recherche d'information émergent pour traiter l'information en relation aux contextes d'utilisation, augmenter la pertinence des réponses et l'usabilité des résultats produits, ainsi que les possibles corrélations entre sources de données, en rendant transparentes leurs hétérogénéités. Les travaux de recherche présentés dans ce mémoire apportent des contributions à la conception d'une Nouvelle Approche de Recherche d'Information (NARI) pour la prise de décision. NARI vise à opérer sur des grandes masses de données cataloguées, hétérogènes, qui peuvent être géo référencées. Elle est basée sur des exigences préliminaires de qualité (standardisation, réglementations), exprimées par les utilisateurs, représentées et gérées à l'aide des métadonnées. Ces exigences conduisent à pallier le manque de données ou leur insuffisante qualité, pour produire une information de qualité suffisante par rapport aux besoins décisionnels. En utilisant la perspective des utilisateurs, on identifie et/ou on prépare des sources de données, avant de procéder à l'étape d'intégration des contenus. L'originalité de NARI réside dans la métaphore de l'écart d'impédance (phénomène classique lorsque on cherche à connecter deux systèmes physiques hétérogènes). Cette métaphore, dont R. Jeansoulin est à l'origine, ainsi que l'attention portée au cadre réglementaire, en guident la conception. NARI est structurée par la dimension géographique (prise en compte de divers niveaux de territoires, corrélations entre plusieurs thématiques) : des techniques d'analyse spatiale supportent des tâches de la recherche d'information, réalisées souvent implicitement par les décideurs. Elle s'appuie sur des techniques d'intégration de données (médiation, entrepôts de données), des langages de représentation des connaissances et des technologies et outils relevant du Web sémantique, pour supporter la montée en charge, la généralisation et la robustesse théorique de l'approche. NARI est illustrée sur des exemples relevant de la santé

11

Ostermann, Pascal. "Logiques modales et informations incomplètes." Toulouse, ENSAE, 1988. http://www.theses.fr/1988ESAE0013.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Étude de la modélisation de l'information incomplète. Dans ce but, sont employées des logiques modales, où "peut être p" signifie que "p" est consistant avec les informations présentes dans la base de données. Une première partie traite de la logique standard. Dans la seconde partie sont etudiées les logiques multivaluées.

12

Dzogang, Fabon. "Représentation et apprentissage à partir de textes pour des informations émotionnelles et pour des informations dynamiques." Paris 6, 2013. http://www.theses.fr/2013PA066253.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'extraction de connaissances automatique à partir de textes consiste àmettre en correspondance une information bas niveau, extraite desdocuments au travers des mots et des groupes de mots, avec uneinformation de plus haut niveau. Les choix de représentation pourdécrire les documents sont alors essentiels et leurs particularitéscontraignent la définition de l'algorithme d'apprentissage mis enoeuvre. Les travaux de cette thèse considèrent ces deux problématiquesd'une part pour des informations émotionnelles, d'autre part pour desinformations dynamiques. Dans une première partie, nous considérons une tâche d'extraction desémotions pour laquelle le fossé sémantique est plus important que pourdes informations traditionnellement thématiques. Aussi, nous étudionsdes représentations destinées à capturer les nuances du langage pourdécrire une information subjective puisque émotionnelle. Nous étudionsde plus l'intégration de connaissances sémantiques qui permettent, dans unetâche de caractérisation, d'extraire la charge émotionnelle desdocuments, dans une tâche de prédiction de guider l'apprentissageréalisé. Dans une seconde partie, nous étudions la dynamique de l'information :à tout corpus de documents publié sur Internet peut être associé dessources en perpétuelle activité qui échangent des informations dansun mouvement continu. Nous explorons trois axes d'étude : les sourcesidentifiées, les communautés qu'elles forment dans un espace dynamiquetrès parcimonieux, et les thématiques remarquables qu'ellesdéveloppent. Pour chacun nous proposons des méthodes d'extractionoriginales que nous mettons en oeuvre sur un corpus réel collecté encontinu sur Internet
Automatic knowledge extraction from texts consists in mapping lowlevel information, as carried by the words and phrases extracted fromdocuments, to higher level information. The choice of datarepresentation for describing documents is, thus, essential and thedefinition of a learning algorithm is subject to theirspecifics. This thesis addresses these two issues in the context ofemotional information on the one hand and dynamic information on theother. In the first part, we consider the task of emotion extraction forwhich the semantic gap is wider than it is with more traditionalthematic information. Therefore, we propose to study representationsaimed at modeling the many nuances of natural language used fordescribing emotional, hence subjective, information. Furthermore, wepropose to study the integration of semantic knowledge which provides,from a characterization perspective, support for extracting theemotional content of documents and, from a prediction perspective,assistance to the learning algorithm. In the second part, we study information dynamics: any corpus ofdocuments published over the Internet can be associated to sources inperpetual activity which exchange information in a continuousmovement. We explore three main lines of work: automaticallyidentified sources; the communities they form in a dynamic and verysparse description space; and the noteworthy themes they develop. Foreach we propose original extraction methods which we apply to a corpusof real data we have collected from information streams over the Internet

13

Lamer, Antoine. "Contribution à la prévention des risques liés à l’anesthésie par la valorisation des informations hospitalières au sein d’un entrepôt de données." Thesis, Lille 2, 2015. http://www.theses.fr/2015LIL2S021/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Introduction Le Système d'Information Hospitalier (SIH) exploite et enregistre chaque jours des millions d'informations liées à la prise en charge des patients : résultats d'analyses biologiques, mesures de paramètres physiologiques, administrations de médicaments, parcours dans les unités de soins, etc... Ces données sont traitées par des applications opérationnelles dont l'objectif est d'assurer un accès distant et une vision complète du dossier médical des patients au personnel médical. Ces données sont maintenant aussi utilisées pour répondre à d'autres objectifs comme la recherche clinique ou la santé publique, en particulier en les intégrant dans un entrepôt de données. La principale difficulté de ce type de projet est d'exploiter des données dans un autre but que celui pour lequel elles ont été enregistrées. Plusieurs études ont mis en évidence un lien statistique entre le respect d'indicateurs de qualité de prise en charge de l'anesthésie et le devenir du patient au cours du séjour hospitalier. Au CHRU de Lille, ces indicateurs de qualité, ainsi que les comorbidités du patient lors de la période post-opératoire pourraient être calculés grâce aux données recueillies par plusieurs applications du SIH. L'objectif de se travail est d'intégrer les données enregistrées par ces applications opérationnelles afin de pouvoir réaliser des études de recherche clinique.Méthode Dans un premier temps, la qualité des données enregistrées dans les systèmes sources est évaluée grâce aux méthodes présentées par la littérature ou développées dans le cadre ce projet. Puis, les problèmes de qualité mis en évidence sont traités lors de la phase d'intégration dans l'entrepôt de données. De nouvelles données sont calculées et agrégées afin de proposer des indicateurs de qualité de prise en charge. Enfin, deux études de cas permettent de tester l'utilisation du système développée.Résultats Les données pertinentes des applications du SIH ont été intégrées au sein d'un entrepôt de données d'anesthésie. Celui-ci répertorie les informations liées aux séjours hospitaliers et aux interventions réalisées depuis 2010 (médicaments administrées, étapes de l'intervention, mesures, parcours dans les unités de soins, ...) enregistrées par les applications sources. Des données agrégées ont été calculées et ont permis de mener deux études recherche clinique. La première étude a permis de mettre en évidence un lien statistique entre l'hypotension liée à l'induction de l'anesthésie et le devenir du patient. Des facteurs prédictifs de cette hypotension ont également étaient établis. La seconde étude a évalué le respect d'indicateurs de ventilation du patient et l'impact sur les comorbidités du système respiratoire.Discussion The data warehouse L'entrepôt de données développé dans le cadre de ce travail, et les méthodes d'intégration et de nettoyage de données mises en places permettent de conduire des analyses statistiques rétrospectives sur plus de 200 000 interventions. Le système pourra être étendu à d'autres systèmes sources au sein du CHRU de Lille mais également aux feuilles d'anesthésie utilisées par d'autres structures de soins
Introduction Hospital Information Systems (HIS) manage and register every day millions of data related to patient care: biological results, vital signs, drugs administrations, care process... These data are stored by operational applications provide remote access and a comprehensive picture of Electronic Health Record. These data may also be used to answer to others purposes as clinical research or public health, particularly when integrated in a data warehouse. Some studies highlighted a statistical link between the compliance of quality indicators related to anesthesia procedure and patient outcome during the hospital stay. In the University Hospital of Lille, the quality indicators, as well as the patient comorbidities during the post-operative period could be assessed with data collected by applications of the HIS. The main objective of the work is to integrate data collected by operational applications in order to realize clinical research studies.Methods First, the data quality of information registered by the operational applications is evaluated with methods … by the literature or developed in this work. Then, data quality problems highlighted by the evaluation are managed during the integration step of the ETL process. New data are computed and aggregated in order to dispose of indicators of quality of care. Finally, two studies bring out the usability of the system.Results Pertinent data from the HIS have been integrated in an anesthesia data warehouse. This system stores data about the hospital stay and interventions (drug administrations, vital signs …) since 2010. Aggregated data have been developed and used in two clinical research studies. The first study highlighted statistical link between the induction and patient outcome. The second study evaluated the compliance of quality indicators of ventilation and the impact on comorbity.Discussion The data warehouse and the cleaning and integration methods developed as part of this work allow performing statistical analysis on more than 200 000 interventions. This system can be implemented with other applications used in the CHRU of Lille but also with Anesthesia Information Management Systems used by other hospitals

14

Choquet, Rémy. "Partage de données biomédicales : modèles, sémantique et qualité." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2011. http://tel.archives-ouvertes.fr/tel-00824931.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le volume de données disponibles dans les systèmes d'information est de plus en plus important et pour autant, nous n'avons jamais autant essayer d'interconnecter cette information pour en extraire de la connaissance sans véritable succès généralisable. L'origine du problème est multiple. Tout d'abord, l'information est représentée dans des structures différentes. Ensuite, les vocabulaires utilisés pour exprimer les données sont hétérogènes. Enfin, la qualité de l'information est souvent trop mauvaise pour utiliser une information et en déduire des connaissances. Ce diagnostic est d'autant plus vrai dans le cadre du partage d'information dans le domaine biomédical où il reste difficile de s'entendre sur des représentations (structures et vocabulaires) pivots d'un domaine de la médecine, et donc où il apparaît difficile de résoudre le problème du partage d'information par l'imposition de standard de codage et de structuration de l'information. Plus récemment, l'introduction de la sémantique dans des processus de partage d'information, nous offre la possibilité de mettre en oeuvre des représentations pivots indépendantes de la structuration ou du nommage d'une donnée. Cette thèse s'inscrit dans cette problématique de partage de données biomédicales dans le cadre de l'évaluation de l'évolution de la résistance des bactéries aux antibiotiques en Europe. L'hypothèse générale de travail que nous proposons est la suivante: comment partager de l'information biomédicale de manière non ambigüe, en temps réel, et à la demande en Europe. Cette hypothèse pose diverses problématiques que nous abordons dans ce mémoire. La problématique de la qualité des données. Celle de la représentation des données à travers leur structure, leur vocabulaire et de leur sémantique. Nous aborderons aussi les problèmes d'alignement de données aux ontologies de domaine et de la fédération de données aidée d'ontologie. Enfin, nous présenterons un système d'interopérabilité sémantique basé sur des règles qui aborde le problème d'alignement sémantique de systèmes hétérogènes appliqué à notre domaine. Nous discuterons finalement de l'apport de la sémantique pour le partage d'information et des limites des outils et méthodes actuels.

15

De, Saint Denis Delphine. "Informations et données personnelles dans le cadre de l'exécution des titres exécutoires." Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL0134.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’effectivité des titres exécutoires en matière civile et commerciale requiert d’avoir une transparence des informations, tant personnelles que patrimoniales, permettant de pouvoir procéder à une exécution forcée. Ces informations sont multiples et foisonnantes mais assujetties au règlement général de la protection des données à caractère personnel. Dès lors, toutes les informations sur les personnes et leur patrimoine ne sont pas obtenables ou utilisables pour l’exécution. La transparence des informations doit donc être proportionnée avec le titre à mettre en œuvre tant dans leur obtention que dans leur exploitation subséquente. Une fois obtenue, l’information doit être protégée de toute atteinte de tiers. Cette protection s’étend depuis l’obtention de l’information au-delà de la fin de son utilisation, jusqu’à sa destruction effective après la phase d’archivage légale.Entre transparence et opacité, les informations personnelles et patrimoniales doivent être facilement accessibles pour l’agent d’exécution tout en étant hors d’atteinte de la prédation des tiers. L’huissier de justice doit être à la fois le garant des intérêts contradictoires des parties et maintenir la translucidité de l’information au service de l’effectivité des titres exécutoires et donc d’une bonne justice
The effectiveness of enforceable titles requires transparency of personal and heritage information, allowing it to proceed with enforced execution. This information is multiple but subject to the general regulation of personal data protection. Therefore all information about people and their assets is neither obtainable nor usable in any circumstances. The information transparency must consequently be proportionate to the implemented title both in obtaining it and in its subsequent operation. Once acquired the information must be protected from any harm. This protection extends from the moment the information was obtained to the end of its use and to its effective destruction following its legal archiving state.Between transparency and opacity, personal and patrimony information must be easily accessible to the Enforcement Officer while being beyond any reach of any third predation parties. The Judicial Officer must be both the guarantor of the parties’ interests competing and maintaining the information translucently at the service of the enforceable titles effectiveness and therefore of good justice

16

Ben, salem Aïcha. "Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD054/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur
Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The ﬁrst part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns oﬀer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the ﬁrst part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user

17

Marot, Pierre-Yves. "Les données et informations à caractère personnel : essai sur la notion et ses fonctions." Nantes, 2007. http://www.theses.fr/2007NANT4012.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Alors même que la primauté de la personne est affirmée avec force, la profusion et l'éclatement des fondements juridiques consacrés aux données et informations afférentes à la personne (données personnelles, informations nominatives, vie privée. . . ) oeuvrent au démantèlement de la personne en autant de régimes juridiques spécifiques que de données et informations la concernant. La notion de vie privée participe grandement à ce péril puisque, si sa protection peut se ramener à celle d'une foule de données et informations, la nature de celles-ci ne détermine pas pour autant le régime juridique qui leur est applicable. Ainsi, il n'est pas si surprenant de constater qu'en jurisprudence, la modification de l'Etat civil, alors que celui-ci repose sur une bonne part d'imposition étatique, se fonde paradoxalement sur le droit au respect de la vie privée devant ces apories conceptuelles, nous constatons l'émergence de la catégorie des données et informations à caractère personnel dont le critère commun réside dans l'identification de la personne ainsi permise. À partir de cette notion fonctionnelle, il devient alors possible de penser son utilisation et d'en rendre compte. Il apparaît que l'utilisation exceptionnelle des données et informations à caractère personnel pour des finalités d'intérêt général (justice pénale, santé publique et information du public) est très extensive. Il convient dès lors de restaurer dans toute sa plénitude le principe de la protection des données et informations à caractère personnel en appréciant strictement ses dérogations et en s'appuyant notamment sur l'indispensable garde-fou que constitue l'indisponibilité
Whereas the primacy of the person is strongly stated by law, the splitting of the, legal sources devoted to the data and information pertaining to the person (personal data. Nominative information, privacy. . . ) is likely to set the dismantling of the person into as many specific legal statuses as there are data and information. The notion of privacy highly participates to this danger because, if its protection means the protection of an important amount of data and information, their nature doesn't indicate what legal status is to be applied in each case. In this context, it is not surprising to see courts allowing the modification of the civil status (names, surnames, sex. . . ) on the paradoxical rationale of the right of privacy, even if it in large parts depends on state decisions. Facing these conceptual contradictions, we note the emergence of a category of personal data and information which as common criterion holds the identification of the person thus allowed. Starting from this functional category, it becomes possible to explore its practical implication and to give an account of it. As it appears, if the use of personal data and information remains exceptional, it becomes massive as soon as public interest are concerned (e. G. Penal system, public health and public information). It is therefore advised to restore in all, its fullness. The principle of protection for personal data and information by strictly appreciating its exemptions and by relying on the necessary safeguard unavailability provides

18

Weber-Baghdiguian, Lexane. "Santé, genre et qualité de l'emploi : une analyse sur données microéconomiques." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLED014/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse étudie l'influence du travail sur la qualité de l'emploi et la qualité de vie des individus. Cette dernière est approximée par la perception que les individus ont de leur santé. Le premier chapitre étudie les conséquences de la perte d'emploi liée à la fermeture d'un établissement sur l'ensemble des dimensions de la qualité de l'emploi retrouvé. Nous montrons que ce choc induit une dégradation, y compris sur le long terme, des salaires, de l'insécurité de l'emploi perçue, de la qualité de l'environnement de travail et de la satisfaction des travailleurs. Les deux derniers chapitres tentent de comprendre les déterminants des différences de santé perçue selon le genre. Dans le deuxième chapitre, nous analysons le rôle de la santé mentale dans les écarts de santé déclarée selon le genre. Le troisième chapitre étudie l'influence des normes sociales au travail, sur la santé perçue. Nous montrons que les femmes comme les hommes travaillant dans des collectifs de travail féminins déclarent davantage de problèmes de santé spécifiques que celles et ceux travaillant dans des collectifs masculins. Ce travail souligne donc, d'une part, l'effet négatif de la perte d'emploi sur la qualité de l'emploi retrouvé et la satisfaction à long terme et, d'autre part, l'importance du mal-être et des normes sociales au travail pour comprendre les différences de santé perçue entre les genres
This thesis studies the influence of work on job and life quality, the latter being considered through the perception that individuals have of their own health. The first chapter focuses on the long-term effects of job losses due to plant closure on job quality. We show that job loss negatively affects wages, perceived job insecurity, the quality of the working environment and job satisfaction, including in the long run. The two last chapters investigate gender differences in self-reported health. The second chapter provides descriptive evidence on the relationships between self-assessed health, gender and mental health problems, i.e. depression and/or affective pains. Finally, in the last chapter, we study the influence of social norms as proxied by the gender structure of the workplace environment, on gender differences in self-reported health. We show that both women and men working in female-dominated environments report more specific health problems than those who work in male-dominated environments. The overall findings of this thesis are twofold. First, losing a job has a negative impact on several dimensions of job quality and satisfaction in the long run. Secondly, mental diseases and social norms at work are important to understand gender-related differences in health perceptions

19

Puricelli, Alain. "Réingénierie et Contrôle Qualité des Données en vue d'une Migration Technologique." Lyon, INSA, 2000. http://theses.insa-lyon.fr/publication/2000ISAL0092/these.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse a pour but de développer une méthodologie de traitement de la cohérence logique dans un Système d'Information Géographique (SIG), afin de fiabiliser la migration des données dans le cas d'une migration technologique (changement de système et de structuration). Cette méthodologie est ensuite appliquée à un cas concret de SIG, celui de la Communauté Urbaine de Lyon (le "SUR"). La cohérence logique est l'un des critères qualité communément admis au sein de la communauté des producteurs et utilisateurs de données géographiques, au même titre que la précision géographique ou l'exhaustivité par exemple. Après une présentation des éléments de qualité et des métadonnées dans les SIG, un état des lieux est donné concernant les différents travaux de normalisation dans ces domaines. Les différentes normes en cours d'élaboration (du CEN, de l'ISO et du FGDC entre autres) sont analysées et commentées. Une méthodologie de détection et de correction d'erreurs géométriques et topologiques est ensuite détaillée, dans le cadre de bases de données géographiques vecteur existantes. Trois types d'erreurs sont identifiés, respectivement les erreurs structurelles, géométriques et sémantiques. Pour chacune de ces familles d'anomalies, des méthodes de détection basées sur des théories établies (contraintes d'intégrité, topologie, géométrie algorithmique) sont proposées ainsi que des pistes pour la correction. Cette approche est ensuite mise en application dans le cadre des bases de données du SUR. Afin de compléter cette application, un mécanisme particulier a été développé pour traiter également les erreurs de tessellations, non prises en compte par la méthodologie (qui utilise les relations topologiques binaires). Enfin pour assurer la cohérence des corrections, une méthode a été mise en place pour propager les corrections dans le voisinage des objets, aussi bien à l'intérieur d'une couche de données qu'entre couches ou entre bases de données différentes du SUR
The purpose of this thesis is to develop a methodology of treatment for logical consistency checking in a Geographical Information System (GIS), in order to ensure the migration of the data in the case of a technological change of system and re-structuring. This methodology is then applied to a real GIS installed in the Urban Community of Lyon (the SUR). Logical consistency is one of the quality criteria that are commonly allowed within the community of producers and users of geographical data, as well as precision or exhaustiveness for instance. After a presentation of the elements of quality and metadata in GIS, a state of the art is given concerning various works of standardization within these fields. The different standards under development (those of the CEN, the ISO and the FGDC among others) are analyzed and commented. A methodology of detection and correction of geometrical and topological errors is then detailed, within the framework of existing geographical vector databases. Three types of errors are identified, namely structural, geometrical and semantic errors. For each one of these families of errors, methods of detection based on established theories (integrity constraints, topology and computational geometry) are proposed as well ideas for the correction are detailed. This approach is then implemented within the context of the SUR databases. To complete this application, a specific mechanism was developed to deal also with the errors in tessellations, which were not taken into account by the methodology (which uses binary topological relations). Finally to ensure the consistency of the corrections, a method was set up to spread the corrections in the neighborhood of the objects under corrections. Those objects can be located inside a single layer of data as well as between different layers or different databases of the system

20

Feno, Daniel Rajaonasy. "Mesures de qualité des règles d'association : normalisation et caractérisation des bases." Phd thesis, Université de la Réunion, 2007. http://tel.archives-ouvertes.fr/tel-00462506.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les règles d'association révèlent des régularités non triviales et potentiellement utiles pour l'aide a la décision, dans les bases de données. Leur validité est évaluée par le biais de mesures de qualités dont les plus utilisées sont le support et la confiance. Pour une base de données transactionnelles d'un supermarché, elles sont du type "90% des clients ayant acheté du vin et du fromage ont également acheté du pain, sachant que 75% des clients ont acheté ces articles". Dans ce travail, nous spécifions une classe de mesures de qualité normalisées en ce sens qu'elles reflètent les situations de référence comme l'incompatibilité, la dépendance négative, l'indépendance, la dépendance positive, et l'implication logique entre la prémisse et le conséquent. Nous caractérisons les mesures de qualité normalisables, donnons les formules de normalisation et montrons que la plupart de celles qui sont normalisables ont la même normalisée, à savoir la mesure de qualité Mgk introduite dans Guillaume (2000). De plus, nous caractérisons des bases pour les règles positives et les règles négatives valides au sens de Mgk, et proposons des algorithmes de génération de ces bases

21

Bazin, Cyril. "Tatouage de données géographiques et généralisation aux données devant préserver des contraintes." Caen, 2010. http://www.theses.fr/2010CAEN2006.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le tatouage est un procédé fondamental pour la protection de la propriété intellectuelle. Il consiste à insérer une marque dans un document numérique en le modifiant légèrement. C'est la présence de cette marque qui permet au propriétaire légitime d'un document numérique de faire preuve de l'antériorité de ses droits. L'originalité de notre travail est double. D'une part nous utilisons une approche locale pour garantir à priori que la qualité des documents est préservée lors de l'insertion de la marque. D'autre part nous proposons un schéma de tatouage générique qui s'abstrait du type de documents à tatouer. La thèse s'articule en trois parties. Nous commencons par introduire les concepts de base du tatouage de données contraintes ainsi que l'état de l'art du tatouage de données géographiques. Nous présentons ensuite notre schéma de tatouage pour les données géographiques vectorielles qui sont souvent utilisées dans les systèmes d'informations géographiques. Ce schéma aveugle permet de tatouer un document tout en en préservant certaines qualités topologiques et métriques. La marque est robuste; elle résiste entre autres aux transformations géométriques et au découpage du document. Nous proposons une implémentation efficace que nous validons par de multiples expérimentations. Dans la dernière partie de la thèse, nous généralisons ce schéma aux données devant préserver des contraintes. Le schéma générique que nous obtenons facilitera la conception de schémas de tatouage pour de nouveaux type de données. Nous donnons notamment un exemple d'application du schéma générique pour les bases de données relationnelles. Afin de montrer qu'il est possible de travailler directement sur ce schéma, nous proposons deux protocoles de détection de la marque applicables directement sur toute implémentation du schéma générique
Digital watermaking is a fundamental process for intellectual property protection. It consists in inserting a mark into a digital document by slightly modifications. The presence of this mark allows the owner of a document to prove the priority of his rights. The originality of our work is twofold. In one hand, we use a local approach to ensure a priori that the quality of constrained documents is preserved during the watermark insertion. On the other hand, we propose a generic watermarking scheme. The manuscript is divided in three parts. Firstly, we introduce the basic concepts of digital watermarking for constrainted data and the state of the art of geographical data watermarking. Secondly, we present our watermarking scheme for digital vectorial maps often used in geographic information systems. This scheme preserves some topological and metric qualities of the document. The watermark is robust, it is resilient against geometric transformations and cropping. We give an efficient implementation that is validated by many experiments. Finally, we propose a generalization of the scheme for constrainted data. This generic scheme will facilitate the design of watermarking schemes for new data type. We give a particular example of application of a generic schema for relational databases. In order to prove that it is possible to work directly on the generic scheme, we propose two detection protocols straightly applicable on any implementation of generic scheme

22

Tabet, Antoine. "Gestion des capteurs et des informations pour un système de détection à multifonction." Perpignan, 2006. http://www.theses.fr/2006PERP0764.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La qualité de l’air dans les milieux intérieurs est devenue une préoccupation majeure en France, en Europe et dans le monde. Les milieux intérieurs concentrent la majorité des populations et des sources de pollution. Ces derniers sont un objet d’étude privilégié pour l’évaluation des pollutions, de leur influence sur la santé et des solutions proposées pour la réduction des polluants. En France, à l’heure actuelle, il n’existe pas des obligations concernant la surveillance de la qualité de l’air dans les milieux intérieurs. Néanmoins, des textes réglementaires sont en cours de développement. Basée sur une approche multi-sources, cette thèse présente une méthodologie complète pour l’élaboration d’un appareil de mesure et de contrôle de la pollution chimique, physique et microbiologique. Egalement, elle présente l’étude, la validation et la mise en œuvre d’une unité originale pour la détection et le contrôle des polluants. Cette unité est basée sur l’automatisme, elle permet d’effectuer une expertise complète de la qualité de l’air tout en transmettant les données reçues en temps réel sur Internet. Un prototype permettant de gérer des données, commander des interfaces et transmettre les valeurs reçues sur Internet a été développé
The quality of the air in the interior mediums became a major concern in France, Europe and in the world. The interior mediums concentrate the majority of the populations and the sources of pollution. These interior mediums are an object of study privileged for the evaluation of pollution, of their influence on health and the solutions suggested for the reduction of the pollutants. In France, at the present time, they do not exist obligations concerning the monitoring of the quality of the air in the interior mediums. Nevertheless, of the lawful texts are under development. Based on an approach multi-source, this thesis presents a methodology supplements for making of a control and measuring apparatus of chemical, physical and microbiological pollution. Also, it presents the study, the validation and the implementation of an original unit for the detection and the control of the pollutants. This unit is based on the automatism, it makes it possible to carry out a complete expertise on the quality of the air while transmitting the data received in real time on Internet. A prototype making it possible to manage data, to order interfaces and to transmit the values received on Internet was developed

23

Jarwah, Sahar. "Un modèle générique pour la gestion des informations complexes et dynamiques :." Phd thesis, Grenoble 1, 1992. http://tel.archives-ouvertes.fr/tel-00341088.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail a pour objectif d'apporter une aide au développement et a la maintenance de logiciels de grande taille dans les environnements de génie logiciel (egl). Il s'agit de définir et d'implanter un noyau générique de stockage et de gestion permettant l'intégration de l'ensemble d'informations génie logiciel et offrant des outils généraux et déclaratifs. Le gestionnaire d'un projet peut ainsi spécifier la stratégie ou la methode de développement souhaitée. Nous avons défini un modèle de données pour les systèmes hypertexte capable de gérer la spécificité des informations génie logiciel et d'offrir une interrogation bien adaptée a ce type d'environnement (navigation, browser, etc). Le modèle est sémantique oriente-objet qui intègre aussi bien les aspects statiques que les aspects dynamiques des informations génie logiciel. Nous avons exploite la richesse des modèles sémantiques pour la représentation des abstractions nécessaires: objets complexes et composites, versions multiples et généralisation de la notion d'objet composite a celle d'objet générique composite. Via la notion de document, qui représente, en plus du contenu textuel des documents, leur contenu sémantique et leur présentation visuelle, le modèle comprend les éléments de base nécessaires pour l'intégration des fonctionnalités d'un systeme hypertexte, et, dans une étape ultérieure, de la recherche par le contenu sémantique des informations. Concernant la dynamique, nous utilisons le couplage entre données et traitements existant dans les modèles orientes-objet et donnons aux méthodes une définition déclarative sous forme de déclencheurs. Les méthodes, dans ce formalisme, n'expriment pas seulement le comportement des objets, mais aussi, les situations de leur déclenchement et les contrôles a effectuer sur le comportement des objets

24

Ben, Saad Myriam. "Qualité des archives web : modélisation et optimisation." Paris 6, 2011. http://www.theses.fr/2011PA066446.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que nos travaux de thèse s'inscrivent. Nous nous intéressons aux deux mesures de qualité: la complétude temporelle et la cohérence temporelle qui sont très pertinentes pour évaluer les archives Web. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. Nous proposons ensuite une méthode pour évaluer l'importance des changements visuels ainsi détectés. Par la suite, nous modélisons l'importance des changements sous forme de patterns, par le modèle PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. En se basant sur PPaC, nous proposons différentes stratégies de crawling qui visent à améliorer la complétude et/ou la cohérence temporelle. Nos différentes stratégies ont été implémentées puis expérimentées aussi bien sur des pages simulées que sur de vraies pages Web. Les résultats obtenus démontrent que le modèle PPaC basé sur l'importance des changements est un instrument utile pour améliorer considérablement la qualité des archives.

25

Maddi, Abdelghani. "La quantification de la recherche scientifique et ses enjeux : bases de données, indicateurs et cartographie des données bibliométriques." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD020/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La question de la productivité et de la « qualité » de la recherche scientifique est l’une des problématiques centrales du monde économique et social du 21e siècle. Car la recherche scientifique, source d’innovations dans tous les domaines, est considérée comme la clé du développement économique et de compétitivité. La science doit également contribuer aux défis sociétaux définis dans les programmes cadre européens (H2020) par exemple, tels que la santé, la démographie et le bien-être. Afin de rationaliser les dépenses publiques de recherche et d’innovation ou encore orienter les stratégies d’investissement des bailleurs de fonds, plusieurs indicateurs ce sont développés pour mesurer les performances des entités de recherche. Désormais, nul ne peut échapper à l’évaluation, à commencer par les articles de recherche, en passant par les chercheurs, jusqu’aux institutions et aux pays (Pansu, 2013, Gingras, 2016). Faute de manque de recul méthodologique, les indicateurs quantitatifs sont parfois mal utilisés en négligeant tous les aspects liés à leur méthode de calcul/normalisation, ce qu’ils représentent ou encore les insuffisances des bases de données à partir desquelles ils sont calculés. Cette situation risque d’avoir des conséquences désastreuses sur le plan scientifique et social. Notre travail envisage d’examiner les outils de la bibliométrie évaluative (indicateurs et bases de données) afin de mesurer les enjeux liés à l’évaluation quantitative des performances scientifiques. Nous montrons au travers de cette recherche que les indicateurs quantitatifs, ne peuvent jamais être utilisés à eux seuls pour mesurer la qualité des entités de recherche étant donnée les disparités des résultats selon les périmètres d’analyse, les problèmes ex-ante liés aux caractéristiques individuelles des chercheurs qui affectent directement les indicateurs quantitatifs, ou encore les insuffisances des bases de données à partir desquelles ils sont calculés. Pour une évaluation responsable, il est impératif d’accompagner les mesures quantitatives par une appréciation qualitative des pairs. Par ailleurs, nous avons également examiné l’efficacité des mesures quantitatives pour des fins de compréhension de l’évolution des sciences et la formation des communautés scientifiques. Notre analyse appliquée sur un corpus de publications traitant la thématique de la crise économique nous a permis de montrer à la fois les auteurs et courants de pensée dominants, ainsi que l’évolution temporelle des termes utilisés dans cette thématique
The issue of productivity and the "quality" of scientific research is one of the central issues of the 21st century in the economic and social world. Scientific research, source of innovation in all fields, is considered the key to economic development and competitiveness. Science must also contribute to the societal challenges defined in the Framework Programmes for Research and Technological Development (H2020) for example, such as health, demography and well-being. In order to rationalize public spending on research and innovation or to guide the investment strategies of funders, several indicators are developed to measure the performance of research entities. Now, no one can escape evaluation, starting with research articles, researchers, institutions and countries (Pansu, 2013, Gingras, 2016). For lack of methodological comprehension, quantitative indicators are sometimes misused by neglecting the aspects related to their method of calculation / normalization, what they represent or the inadequacies of the databases from which they are calculated. This situation may have disastrous scientific and social consequences. Our work plans to examine the tools of evaluative bibliometrics (indicators and databases) in order to measure the issues related to the quantitative evaluation of scientific performances. We show through this research that the quantitative indicators, can never be used alone to measure the quality of the research entities given the disparities of the results according to the analysis perimeters, the ex-ante problems related to the individual characteristics of researchers who directly affect the quantitative indicators, or the shortcomings of the databases from which they are calculated. For a responsible evaluation, it is imperative to accompany the quantitative measures by a qualitative assessment of the peers. In addition, we also examined the effectiveness of quantitative measures for the purpose of understanding the evolution of science and the formation of scientific communities. Our analysis, applied to a corpus of publications dealing the economic crisis, allowed us to show the dominant authors and currents of thought, as well as the temporal evolution of the terms used in this thematic

26

Legros, Diégo. "Innovation, formation, qualité et performances des entreprises : Une étude économétrique sur données d'entreprises." Paris 2, 2005. http://www.theses.fr/2005PA020106.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les économistes, notamment l'OCDE s'accordent aujourd'hui à reconnaître que les économies développées contemporaines sont fondées sur le savoir. On entend par là que le savoir, sous toutes ses formes, joue un rôle croissant et névralgique dans les processus économiques comme la concurrence, la répartition et la croissance. Les nations, les entreprises ayant un degré de connaissances supérieur (technologies) sont plus compétitives. Ce rôle stratégique explique pourquoi les entreprises et les particuliers investissent de plus en plus dans toutes les formes de connaissances. Pour affronter les difficultés inhérentes à la mesure de la connaissance, les économistes se sont intéressés à la recherche et développement. La raison principale à ceci tient à la difficulté de mesurer les connaissances. Les activités de R&D présentent l'avantage d'être bien circonscrites et facilement mesurables. La littérature économique envisage la performance des bases de connaissances de deux manières. Un premier axe étudie l'impact des connaissances sur la production des entreprises. La connaissance se joint ainsi aux deux facteurs de production traditionnels de la firme, à savoir le capital et le travail. Un second axe de recherche s'intéresse plus précisément à l'activité d'innovation de la firme en examinant les déterminants de l'investissement en R&D des entreprises. Le mérite de Griliches (1979) a été de réunir les deux approches dans une analyse explicitement orientée sur la mesure d'un capital de R&D participant positivement à la croissance des firmes. Ses travaux se concentrent sur l'analyse du lien entre la productivité des entreprises et le stock de connaissances de la firme à l'aide notamment d'une fonction de production Cobb-Douglas. A la suite de ses travaux, l'effet de la R&D des entreprises a été analysé dans de nombreuses études empiriques, conduites à différents niveaux d'agrégation (établissements, entreprises, niveau sectoriel, niveau national). Toutes ces études concluent à l'importance de la R&D, l'élasticité estimée de la production par rapport à la R&D des entreprises allant de 10% a 30%. Implicitement cette littérature considère que les dépenses de R&D sont la seule source de connaissances des firmes. Dans ce contexte, une part considérable des activités économiques et des agents n'est pas considérée comme partie prenante de l'économie de la connaissance. Pourtant la connaissance produite par les entreprises ne provient pas uniquement des activités formelles de R&D. Toutes les activités de production et d'usage des biens et services peuvent être l'occasion d'un apprentissage et donc de production de connaissances. Nous ne doutons pas de la contribution significative des dépenses de R&D à la construction conjointe d'une base de connaissance et également d'une capacité d'absorption. En revanche, nous pouvons supposer que c'est l'ensemble des activités de l'entreprise qui est générateur de nouveaux savoirs et donc de productivité. Cohen et Levinthal (1990) le reconnaissent d'ailleurs, en soulignant le caractère collectif et organisationnel de l'absorption des connaissances externes, notamment en insistant sur la communication entre les sous-unités de la firme. Les travaux en termes de fonction de production incluant une variable de R&D devraient gagner en qualité, à condition qu'ils intègrent d'autres formes d'amélioration de la productivité. Nous pensons notamment à la formation professionnelle financée par les entreprises, à la codification des connaissances tacites. Pour cette raison, nous proposons, dans cette thèse, de compléter les travaux antérieurs sur les sources de la connaissance et sur la contribution des connaissances à la productivité des entreprises. Nous pensons que le stock de connaissances des entreprises s'accroît non seulement a la suite des activités de R&D mais également à la suite d'autres activités formelles telles que la formation professionnelle et la capitalisation des connaissances. Notre travail tente de répondre, même partiellement, aux questions touchant le lien connaissances-productivité. Pour cela, nous proposons une approche unifiée englobant la R&D, l'innovation, la formation professionnelle financée par les entreprises, la qualité et la productivité des entreprises. Nous rompons, dans cette thèse, avec l'analyse économique plutôt traditionnelle laissant trop de place à l'analyse des effets des investissements en R&D.

27

Caron, Clément. "Provenance et Qualité dans les Workflows Orientés Données : application à la plateforme WebLab." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066568/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La plateforme Weblab est un environnement de définition et d’exécution de chaines de traitements média-mining développé par le service IPCC1 d’Airbus Defence and Space. Il s’agit d’une plateforme ouverte d’intégration de composants externes dont la richesse permet aux concepteurs de construire des chaines média-mining très complexes, mais pose également des problèmes liés à la sensibilité de la qualité des résultats par rapport aux composants utilisés. Avant le début de cette thèse, aucun outil n’existait pour l’analyse et l’amélioration de la qualité de workflows WebLab. La problématique principale de la thèse repose sur le fonctionnement dit boite noire des services WebLab. L’approche choisie est non-intrusive : nous complétons la définition du workflow WebLab par des règles de provenance et de propagation de qualité. Les règles de provenance génèrent des liens de dépendance dit grains-fins entre les données et les services après l’exécution d’une chaine de traitements WebLab. Les règles de propagation de qualité profitent des liens inférés précédemment pour raisonner sur l’influence de la qualité d’une donnée utilisée par un service sur la qualité d’une donnée produite
The WebLab platform is an application used to define and execute media-mining workflows. It is an open source platform, developed by the IPCC1 section of Airbus Defence and Space, for the integration of external components. A designer can create complex media-mining workflows using components, whose operation is not always known (black-boxes services). These complex workflows can lead to a problem of data quality, however, and before this work, no tool existed to analyse and improve the quality of WebLab workflows. To deal with black-box services, we choose to tackle this quality problem with a non-intrusive approach: we enhance the definition of the WebLab workflow with provenance and quality propagation rules. Provenance rules generate fine-grained data dependency links between data and services after the execution of a WebLab workflow. Then the quality propagation rules use these links to reason on the influence that the quality of the data used by a component has on the quality of the output data…

28

Caron, Clément. "Provenance et Qualité dans les Workflows Orientés Données : application à la plateforme WebLab." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066568.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La plateforme Weblab est un environnement de définition et d’exécution de chaines de traitements média-mining développé par le service IPCC1 d’Airbus Defence and Space. Il s’agit d’une plateforme ouverte d’intégration de composants externes dont la richesse permet aux concepteurs de construire des chaines média-mining très complexes, mais pose également des problèmes liés à la sensibilité de la qualité des résultats par rapport aux composants utilisés. Avant le début de cette thèse, aucun outil n’existait pour l’analyse et l’amélioration de la qualité de workflows WebLab. La problématique principale de la thèse repose sur le fonctionnement dit boite noire des services WebLab. L’approche choisie est non-intrusive : nous complétons la définition du workflow WebLab par des règles de provenance et de propagation de qualité. Les règles de provenance génèrent des liens de dépendance dit grains-fins entre les données et les services après l’exécution d’une chaine de traitements WebLab. Les règles de propagation de qualité profitent des liens inférés précédemment pour raisonner sur l’influence de la qualité d’une donnée utilisée par un service sur la qualité d’une donnée produite
The WebLab platform is an application used to define and execute media-mining workflows. It is an open source platform, developed by the IPCC1 section of Airbus Defence and Space, for the integration of external components. A designer can create complex media-mining workflows using components, whose operation is not always known (black-boxes services). These complex workflows can lead to a problem of data quality, however, and before this work, no tool existed to analyse and improve the quality of WebLab workflows. To deal with black-box services, we choose to tackle this quality problem with a non-intrusive approach: we enhance the definition of the WebLab workflow with provenance and quality propagation rules. Provenance rules generate fine-grained data dependency links between data and services after the execution of a WebLab workflow. Then the quality propagation rules use these links to reason on the influence that the quality of the data used by a component has on the quality of the output data…

29

Azé, Jérôme. "Extraction de Connaissances à partir de Données Numériques et Textuelles." Phd thesis, Université Paris Sud - Paris XI, 2003. http://tel.archives-ouvertes.fr/tel-00011196.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.
L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.
Les experts des données ont souvent des difficultés pour déterminer ce support.
Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.
Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".
Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.
Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.

Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.
Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.
Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.

Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.
Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.
Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.
Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.

30

Rezki-Hanchour, Lahouaria. "Contribution à l'amélioration de processus industriels : contrôle, assurance et maitrise de la qualité des produits." Angers, 1995. http://www.theses.fr/1995ANGE0018.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Durant ces dernières années la qualité a beaucoup évolué. Elle est passée d'une qualité contrôlée à une qualité totale. Cette évolution oblige les entreprises à rechercher de nouvelles. Les travaux réalisés dans ce mémoire de thèse ont pour objectif de contribuer efficacement à l'amélioration des méthodes et techniques pour maitriser la qualité des produits. Ces travaux, pluridisciplinaires, couvrent des domaines aussi différents que l'informatique, l'organisation et la statistique. Ce mémoire de thèse a été structuré en trois contributions distinctes : - une intégration des données issues du processus de contrôle qualité dans un système d'information unifié. - une réalisation d'un modèle qualimétrique pour évaluer la mise en place d'un modèle normatif d'assurance qualité. - une analyse critique des conditions d'utilisation des plans d'expériences pour optimiser les procédés.

31

Berti-Équille, Laure. "La qualité des données et leur recommandation : modèle conceptuel, formalisation et application a la veille technologique." Toulon, 1999. http://www.theses.fr/1999TOUL0008.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les activités liées à la veille technologique sont traditionnellement centrées sur la notion de validation de l'information par expertise. Jusqu'à présent aucun système d'information n'assure (ni n'assiste) l'analyse critique et qualitative de l'information qu'il stocke. La plupart des systèmes d'information actuels stockent des données (I) dont la source est généralement unique, non connue ou non identifiée/authentifiée et (2) dont k qualité est inégale et/ou ignorée. Après avoir analysé le vaste panorama des travaux de recherche dont les problématiques présentent des analogies avec la problématique de la veille, l'objectif était de proposer un environnement permettant la gestion des sources textuelles, des données (souvent contradictoires) extraites de leur contenu et des méta-données de qualité. La contribution de cette thèse est d'apporter une perspective multi-source à la qualité des données en définissant les concepts de base de données multi-sources (BDMS), de qualité de données multi-sources (QDMS) et de recommandation multi-critère. Mon travail s'est axé sur : la proposition d'une méthodologie qui guide pas-à-pas la mise en oeuvre de la qualité des données dans un contexte d'informations mulli-sources ; la modélisation conceptuelle d'une BDMS permettant la gestion de sources, de données multi-sources et t de leur rnéta-données de qualité et proposant des mécanismes de recommandation des données selon leur qualité relative, la formalisation du modèle de données QDMS qui décrit les données multi-sources, leurs méta-données de qualité et l'ensemble des opérations pour les manipuler, le développement du prototype sQuaL pour valider l'ensemble de mes propositions. Les perspectives sont de développer un système d'information spécifique à la veille pour qu'il gère des données multi-sources, prenne en compte la qualité de ses propres données et propose à l'interrogation une recommandation des données basée sur leur qualité relative. A plus long terme, il s'agit de développer le concept de système d'information "introspectif", c'est-à-dire actif et réactif quant à la qualité de ses propres données
Technological Watch activities are focused on information qualification and validation by human expertise. As a matter of facf, none of these systems can provide (nor assist) a critical and qualitative analysis of data they store and manage- Most of information systems store data (1) whose source is usually unique, not known or not identified/authenticated (2) whose quality is unequal and/or ignored. In practice, several data may describe the same entity in the real world with contradictory values and their relative quality may be comparatively evaluated. Many techniques for data cleansing and editing exist for detecting some errors in database but it is determinant to know which data have bad quality and to use the benefit of a qualitative expert judgment on data, which is complementary to quantitative and statistical data analysis. My contribution is to provide a multi-source perspective to data quality, to introduce and to define the concepts of multi-source database (MSDB) and multi-source data quality (MSDQ). My approach was to analyze the wide panorama of research in the literature whose problematic have some analogies with technological watch problematic. The main objective of my work was to design and to provide a storage environment for managing textual information sources, (more or less contradictory) data that are extracted from the textual content and their quality mcta-data. My work was centered on proposing : the methodology to guide step-by-step a project for data quality in a multi-source information context, the conceptual modeling of a multi-source database (MSDB) for managing data sources, multi-source data and their quality meta-data and proposing mechanisms for multi-criteria data recommendation ; the formalization of the QMSD data model (Quality of Multi-Source Data) which describes multi-source data, their quality meta-data and the set of operations for manipulating them ; the development of the sQuaL prototype for implementing and validating my propositions. In the long term, the perspectives are to develop a specific dccisional information system extending classical functionalities for (1) managing multi-source data (2) taking into account their quality meta-data and (3) proposing data-quality-based recommendation as query results. The ambition is to develop the concept of "introspective information system" ; that is to say, an information system thai is active and reactive concerning the quality of its own data

32

Troya-Galvis, Andrès. "Approche collaborative et qualité des données et des connaissances en analyse multi-paradigme d'images de télédétection." Thesis, Strasbourg, 2016. http://www.theses.fr/2016STRAD040/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'interprétation automatique d'images de télédétection à très haute résolution spatiale est une tâche complexe mais nécessaire. Les méthodes basées objet sont couramment employées pour traiter ce type d'images. Elles consistent à construire les objets d'intérêt au moyen d'une étape de segmentation puis à les classifier en utilisant des méthodes de fouille de données. La majorité des travaux entrepris dans ce domaine considèrent la segmentation et la classification de manière indépendante. Or, ces deux étapes cruciales du processus sont fortement liées. Dans cette thèse, nous proposons deux approches différentes basées sur la qualité des données et des connaissances, pour initialiser, guider et évaluer un processus collaboratif de manière objective: 1. Une première approche basée sur une stratégie d'extraction mono-classe qui permet de se focaliser sur les propriétés particulières d'une classe donnée afin de mieux labelliser les objets de cette classe par rapport au reste. 2. Une deuxième approche multi-classe offrant deux stratégies différentes d'agrégation d'extracteurs mono-classes qui permet l'obtention d'une image entièrement labellisée de manière automatique
Automatic interpretation of very high spatial resolution remotely sensed images is a complex but necessary task. Object-based image analysis approaches are commonly used to deal with this kind of images. They consist in applying an image segmentation algorithm in order to construct the abjects of interest, and then classifying them using data-mining methods. Most of the existing work in this domain consider the segmentation and the classification independently. However, these two crucial steps are closely related. ln this thesis, we propose two different approaches which are based on data and knowledge quality in order to initialize, guide, and evaluate a segmentation and classification collaborative process. 1. The first approach is based on a mono-class extraction strategy allowing us to focus on the particular properties of a given thematic class in order to accurately label the abjects of this class. 2. The second approach deals with multi-class extraction and offers two strategies to aggregate several mono-class extractors to get a final and completely labelled image

33

Da, Silva Carvalho Paulo. "Plateforme visuelle pour l'intégration de données faiblement structurées et incertaines." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4020/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous entendons beaucoup parler de Big Data, Open Data, Social Data, Scientific Data, etc. L’importance qui est apportée aux données en général est très élevée. L’analyse de ces données est importante si l’objectif est de réussir à en extraire de la valeur pour pouvoir les utiliser. Les travaux présentés dans cette thèse concernent la compréhension, l’évaluation, la correction/modification, la gestion et finalement l’intégration de données, pour permettre leur exploitation. Notre recherche étudie exclusivement les données ouvertes (DOs - Open Data) et plus précisément celles structurées sous format tabulaire (CSV). Le terme Open Data est apparu pour la première fois en 1995. Il a été utilisé par le groupe GCDIS (Global Change Data and Information System) (États-Unis) pour encourager les entités, possédant les mêmes intérêts et préoccupations, à partager leurs données [Data et System, 1995]. Le mouvement des données ouvertes étant récent, il s’agit d’un champ qui est actuellement en grande croissance. Son importance est actuellement très forte. L’encouragement donné par les gouvernements et institutions publiques à ce que leurs données soient publiées a sans doute un rôle important à ce niveau
We hear a lot about Big Data, Open Data, Social Data, Scientific Data, etc. The importance currently given to data is, in general, very high. We are living in the era of massive data. The analysis of these data is important if the objective is to successfully extract value from it so that they can be used. The work presented in this thesis project is related with the understanding, assessment, correction/modification, management and finally the integration of the data, in order to allow their respective exploitation and reuse. Our research is exclusively focused on Open Data and, more precisely, Open Data organized in tabular form (CSV - being one of the most widely used formats in the Open Data domain). The first time that the term Open Data appeared was in 1995 when the group GCDIS (Global Change Data and Information System) (from United States) used this expression to encourage entities, having the same interests and concerns, to share their data [Data et System, 1995]. However, the Open Data movement has only recently undergone a sharp increase. It has become a popular phenomenon all over the world. Being the Open Data movement recent, it is a field that is currently growing and its importance is very strong. The encouragement given by governments and public institutions to have their data published openly has an important role at this level

34

Ben, othmane Zied. "Analyse et visualisation pour l'étude de la qualité des séries temporelles de données imparfaites." Thesis, Reims, 2020. http://www.theses.fr/2020REIMS002.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans ce travail de thèse, nous nous intéressons à la qualité des informations récoltées par des capteurs sur le web. Ces données forment des séries de données temporelles qui sont incomplètes et imprécises, et sont sur des échelles quantitatives peu comparables. Dans ce contexte, nous nous intéressons plus particulièrement à la variabilité et la stabilité de ces séries temporelles. Nous proposons deux approches pour les quantifier. La première se base sur une représentation à l'aide des quantiles, la seconde est une approche floue. A l'aide de ces indicateurs, nous proposons un outil de visualisation interactive dédié à l'analyse de la qualité des récoltes effectuées par les capteurs. Ce travail s'inscrit dans une collaboration CIFRE avec la société Kantar
This thesis focuses on the quality of the information collected by sensors on the web. These data form time series that are incomplete, imprecise, and are on quantitative scales that are not very comparable. In this context, we are particularly interested in the variability and stability of these time series. We propose two approaches to quantify them. The first is based on a representation using quantiles, the second is a fuzzy approach. Using these indicators, we propose an interactive visualization tool dedicated to the analysis of the quality of the harvest carried out by the sensors. This work is part of a CIFRE collaboration with Kantar

35

Vaillant, Benoît. "Mesurer la qualité des règles d'association : études formelles et expérimentales." Télécom Bretagne, 2006. http://www.theses.fr/2006TELB0026.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'extraction de connaissances à partir de données vise à extraire des motifs contenus dans des entrepôts de données, dont la taille ne cesse de croître. C'est un processus complexe dans lequel plusieurs experts (métier, analyste, informaticien. . . ) doivent coopérer afin de révéler des motifs qui seront évalués selon différents critères : validités, nouveauté, compréhensibilité, exploitabilité, etc. Or, ces dernier critères sont fortement liés au contexte applicatif et peuvent être formulés de différentes manières. De plus, les progrès techniques et méthodologiques permanents permettent de traiter des volumes de données de plus en plus importants. Par voie de conséquence, le nombre de motifs extraits est également de plus en plus grand, sans pour autant qu'ils soient tous valides - bien au contraire. Force est de constater que la validation de connaissances ne peut maintenant plus se faire sans assistance au décideur, ce dernier ayant bien souvent comme tâche la validation des motifs. Afin de permettre de procéder à cette tâche finale de validation lors du processus, un moyen couramment retenu est l'utilisation de fonctions quantifiant numériquement la pertinence des connaissances. De telles fonctions, dites mesures de qualité, mettent en avant une typologie de connaissance donnée, en induisant un ordre sur celles-ci. De nombreuses mesures ont été proposées, chacune étant liée à des situations précises. Nous adressons la problématique de l'évaluation objective de la qualité d'un type de motif particulier, les règlesd'association, par de telles mesures. Considérant que la sélection des « bonnes » règles repose sur l'utilisation d'une mesure adaptée, nous proposons une étude systématique de ces dernières, basée sur une analyse de propriétés formelles, énoncées selon des termes les plus compréhensibles possibles. De cette étude, on produit une classification d'un nombre important de mesures classiques, que nous confrontons à une classification expérimentale, obtenue en comparant les rangements induits par les mesures pour plusieurs jeux de données. L'étude des propriétés classiques et la définition de nouvelles nous a également permis de mettre en avant certaines particularités des mesures. Nous en déduisons un cadre généralisant la plupart d'entre elles. Nous appliquons également deux méthodes d'Aide Multicritère à la Décision afin de résoudre le problème de la sélection des règles pertinentes. La première approche se fonde sur la prise en compte d'un système de préférences exprimé par un expert de données sur les propriétés précédemment définies, en vue d'orienter le choix de mesure(s) adaptée(s) au contexte applicatif. La seconde approche adresse le problème de la prise en compte des valeurs potentiellement discordantes qu'expriment les mesures sur l'intérêt des règles, et construisons une vue agrégée de leur ordonnancement, en prenant en compte les écarts d'évaluation. Ces méthodes sont appliquées à des situations pratiques. Ce travail nous a aussi conduit au développement d'un outil spécifique performant, Herbs. Nous présentons les traitements qu'il permet d'effectuer, tant en termes de sélection de règles, d'analyse du comportement des mesures et de visualisation
Knowledge discovery in databases aims at extracting information contained in data warehouses. It is a complex process, in which several experts (those acquainted with data, analysts, processing specialists, etc. ) must act together in order to reveal patterns, which will be evaluated according to several criteria: validity, novelty, understandability, exploitability, etc. Depending on the application field, these criteria may be related to differing concepts. In addition, constant improvements made in the methodological and technical aspects of data mining allow one to deal with ever-increasing databases. The number of extracted patterns follows the same increasing trend, without them all being valid, however. It is commonly assumed that the validation of the knowledge mined cannot be performed by a decision maker, usually in charge of this step in the process, without some automated help. In order to carry out this final validation task, a typical approach relies on the use of functions which numerically quantify the pertinence of the patterns. Since such functions, called interestingness measures, imply an order on the patterns, they highlight some specific kind of information. Many measures have been proposed, each of them being related to a particular category of situations. We here address the issue of evaluating the objective interestingness of the particular type of patterns that are association rules, through the use of such measures. Considering that the selection of ``good'' rules implies the use of appropriated measures, we propose a systematic study of the latter, based on formal properties expressed in the most straightforward terms. From this study, we obtain a clustering of many commonly-used measures which we confront with an experimental approach obtained by comparing the rankingsinduced by these measures on classical datasets. Analysing these properties enabled us to highlight some particularities of the measures. We deduce a generalised framework that includes a large majority of them. We also apply two Multicriteria Decision Aiding methods in order to solve the issue of retaining pertinent rules. The first approach takes into account a modelling of the preferences expressed by an expert in the field being mined about the previously defined properties. From this modelling, we establish which measures are the most adapted to the specific context. The second approach addresses the problem of taking into account the potentially differing values that the measures take, and builds an aggregated view of the ordering of the rules by taking into account the differences in evaluations. These methods are applied to practical situations. This work also led us to develop powerful dedicated software, Herbs. We present the processing it allows for rule selection purposes, as well as for the analysis of the behaviour of measures and visualisation aspects. Without any claim to exhaustiveness in our study, the methodology We propose can be extended to new measures or properties, and is applicable to other data mining contexts

36

El, Ouadghiri Imane. "Analyse du processus de diffusion des informations sur les marchés financiers : anticipation, publication et impact." Thesis, Paris 10, 2015. http://www.theses.fr/2015PA100096.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les marchés financiers sont sujets quotidiennement à la diffusion de statistiques économiques ainsi que leurs prévisions par des institutions publiques et privées. Ces annonces sont prévues ou non prévues. Les annonces prévues sont organisées selon un calendrier connu à l’avance par tous les opérateurs. Ces annonces telles que les statistiques d'activité, d’exportation ou de sentiments, sont publiées une fois par mois par des agences spécialisées telles que Bloomberg. La diffusion d’une statistique économique ou financière est toujours précédée par la publication de sa prévision calculée comme la médiane de toutes les prévisions individuelles fournies par les agents. Cette médiane est un proxy de la vision commune des opérateurs et aide à la construction d'une représentation collective de l'environnement économique. Le premier chapitre de ma thèse a pour objectif d'analyser l'hétérogénéité dans la prévision des annonces macroéconomiques est testée grâce à des données mensuelles de prévisions issues d'enquêtes conduites par Bloomberg, sur une série d'indicateurs macroéconomiques. S’ensuit alors une deuxième problématique. Quels sont aux yeux des investisseurs, les critères qui permettent de considérer qu’une annonce est plus importante qu’une autre ? L’analyse du processus par lequel une information est incorporée dans les cours, nous a éclairés sur l’existence d’une forte rotation dans les statistiques considérées comme importantes (Market Mover indicators). Le deuxième chapitre tente donc de répondre à cette problématique. Dans un dernier chapitre je m’interroge sur la dynamique des prix post-publications d’annonces macroéconomiques et financières. Des connections sont réalisées entre les Jumps sur les cours des actifs et les annonces macroéconomiques, financières mais aussi imprévues
Financial markets are subjected daily to the diffusion of economic indicators and their forecasts by public institutions and even private ones. These annoncements can be scheduled or unscheduled. The scheduled announcements are organized according to a specific calendar and known in advance by all operators. These news such as activity indicators, credit, export or sentiments’ surveys, are published monthly or quarterly by specialized agencies to all operators in real time. Our thesis contributes to diferent literatures and aims to thoroughly analyze the three phases of the diffusion process of new information on financial markets : anticipation of the announcement before its publication, interest that arouse its publication and impact of its publication on market dynamics. The aim of the first chapter is to investigate heterogeneity in macroeconomic news forecasts using disaggregate data of monthly expectation surveys conducted by Bloomberg on macroeconomic indicators from January 1999 to February 2013. The second chapter examines the impact of surprises associated with monthly macroeconomic news releases on Treasury-bond returns, by paying particular attention to the moment at which the information is published in the month. In the third chapter we examine the intraday effects of surprises from scheduled and unscheduled announcements on six major exchange rate returns (jumps) using an extension of the standard Tobit model with heteroskedastic and asymmetric errors

37

Guillet, Fabrice. "Qualité, Fouille et Gestion des Connaissances." Habilitation à diriger des recherches, Université de Nantes, 2006. http://tel.archives-ouvertes.fr/tel-00481938.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Qualité, Fouille et Gestion des Connaissances Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Sed non risus. Suspendisse lectus tortor, dignissim sit amet, adipiscing nec, ultricies sed, dolor. Cras elementum ultrices diam. Maecenas ligula massa, varius a, semper congue, euismod non, mi. Proin porttitor, orci nec nonummy molestie, enim est eleifend mi, non fermentum diam nisl sit amet erat. Duis semper. Duis arcu massa, scelerisque vitae, consequat in, pretium a, enim. Pellentesque congue. Ut in risus volutpat libero pharetra tempor. Cras vestibulum bibendum augue. Praesent egestas leo in pede. Praesent blandit odio eu enim. Pellentesque sed dui ut augue blandit sodales

38

Ben, Hassine Soumaya. "Évaluation et requêtage de données multisources : une approche guidée par la préférence et la qualité des données : application aux campagnes marketing B2B dans les bases de données de prospection." Thesis, Lyon 2, 2014. http://www.theses.fr/2014LYO22012/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Avec l’avènement du traitement distribué et l’utilisation accrue des services web inter et intra organisationnels alimentée par la disponibilité des connexions réseaux à faibles coûts, les données multisources partagées ont de plus en plus envahi les systèmes d’informations. Ceci a induit, dans un premier temps, le changement de leurs architectures du centralisé au distribué en passant par le coopératif et le fédéré ; et dans un deuxième temps, une panoplie de problèmes d’exploitation allant du traitement des incohérences des données doubles à la synchronisation des données distribuées. C’est le cas des bases de prospection marketing où les données sont enrichies par des fichiers provenant de différents fournisseurs.Nous nous intéressons au cadre particulier de construction de fichiers de prospection pour la réalisation de campagnes marketing B-to-B, tâche traitée manuellement par les experts métier. Nous visons alors à modéliser le raisonnement de brokers humains, afin d’optimiser et d’automatiser la sélection du « plan fichier » à partir d’un ensemble de données d’enrichissement multisources. L’optimisation en question s’exprimera en termes de gain (coût, qualité) des données sélectionnées, le coût se limitant à l’unique considération du prix d’utilisation de ces données.Ce mémoire présente une triple contribution quant à la gestion des bases de données multisources. La première contribution concerne l’évaluation rigoureuse de la qualité des données multisources. La deuxième contribution porte sur la modélisation et l’agrégation préférentielle des critères d’évaluation qualité par l’intégrale de Choquet. La troisième contribution concerne BrokerACO, un prototype d’automatisation et d’optimisation du brokering multisources basé sur l’algorithme heuristique d’optimisation par les colonies de fourmis (ACO) et dont la Pareto-optimalité de la solution est assurée par l’utilisation de la fonction d’agrégation des préférences des utilisateurs définie dans la deuxième contribution. L’efficacité du prototype est montrée par l’analyse de campagnes marketing tests effectuées sur des données réelles de prospection
In Business-to-Business (B-to-B) marketing campaigns, manufacturing “the highest volume of sales at the lowest cost” and achieving the best return on investment (ROI) score is a significant challenge. ROI performance depends on a set of subjective and objective factors such as dialogue strategy, invested budget, marketing technology and organisation, and above all data and, particularly, data quality. However, data issues in marketing databases are overwhelming, leading to insufficient target knowledge that handicaps B-to-B salespersons when interacting with prospects. B-to-B prospection data is indeed mainly structured through a set of independent, heterogeneous, separate and sometimes overlapping files that form a messy multisource prospect selection environment. Data quality thus appears as a crucial issue when dealing with prospection databases. Moreover, beyond data quality, the ROI metric mainly depends on campaigns costs. Given the vagueness of (direct and indirect) cost definition, we limit our focus to price considerations.Price and quality thus define the fundamental constraints data marketers consider when designing a marketing campaign file, as they typically look for the "best-qualified selection at the lowest price". However, this goal is not always reachable and compromises often have to be defined. Compromise must first be modelled and formalized, and then deployed for multisource selection issues. In this thesis, we propose a preference-driven selection approach for multisource environments that aims at: 1) modelling and quantifying decision makers’ preferences, and 2) defining and optimizing a selection routine based on these preferences. Concretely, we first deal with the data marketer’s quality preference modelling by appraising multisource data using robust evaluation criteria (quality dimensions) that are rigorously summarized into a global quality score. Based on this global quality score and data price, we exploit in a second step a preference-based selection algorithm to return "the best qualified records bearing the lowest possible price". An optimisation algorithm, BrokerACO, is finally run to generate the best selection result

39

Mittal, Nupur. "Data, learning and privacy in recommendation systems." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S084/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les systèmes de recommandation sont devenus une partie indispensable des services et des applications d’internet, en particulier dû à la surcharge de données provenant de nombreuses sources. Quel que soit le type, chaque système de recommandation a des défis fondamentaux à traiter. Dans ce travail, nous identifions trois défis communs, rencontrés par tous les types de systèmes de recommandation: les données, les modèles d'apprentissage et la protection de la vie privée. Nous élaborons différents problèmes qui peuvent être créés par des données inappropriées en mettant l'accent sur sa qualité et sa quantité. De plus, nous mettons en évidence l'importance des réseaux sociaux dans la mise à disposition publique de systèmes de recommandation contenant des données sur ses utilisateurs, afin d'améliorer la qualité des recommandations. Nous fournissons également les capacités d'inférence de données publiques liées à des données relatives aux utilisateurs. Dans notre travail, nous exploitons cette capacité à améliorer la qualité des recommandations, mais nous soutenons également qu'il en résulte des menaces d'atteinte à la vie privée des utilisateurs sur la base de leurs informations. Pour notre second défi, nous proposons une nouvelle version de la méthode des k plus proches voisins (knn, de l'anglais k-nearest neighbors), qui est une des méthodes d'apprentissage parmi les plus populaires pour les systèmes de recommandation. Notre solution, conçue pour exploiter la nature bipartie des ensembles de données utilisateur-élément, est évolutive, rapide et efficace pour la construction d'un graphe knn et tire sa motivation de la grande quantité de ressources utilisées par des calculs de similarité dans les calculs de knn. Notre algorithme KIFF utilise des expériences sur des jeux de données réelles provenant de divers domaines, pour démontrer sa rapidité et son efficacité lorsqu'il est comparé à des approches issues de l'état de l'art. Pour notre dernière contribution, nous fournissons un mécanisme permettant aux utilisateurs de dissimuler leur opinion sur des réseaux sociaux sans pour autant dissimuler leur identité
Recommendation systems have gained tremendous popularity, both in academia and industry. They have evolved into many different varieties depending mostly on the techniques and ideas used in their implementation. This categorization also marks the boundary of their application domain. Regardless of the types of recommendation systems, they are complex and multi-disciplinary in nature, involving subjects like information retrieval, data cleansing and preprocessing, data mining etc. In our work, we identify three different challenges (among many possible) involved in the process of making recommendations and provide their solutions. We elaborate the challenges involved in obtaining user-demographic data, and processing it, to render it useful for making recommendations. The focus here is to make use of Online Social Networks to access publicly available user data, to help the recommendation systems. Using user-demographic data for the purpose of improving the personalized recommendations, has many other advantages, like dealing with the famous cold-start problem. It is also one of the founding pillars of hybrid recommendation systems. With the help of this work, we underline the importance of user’s publicly available information like tweets, posts, votes etc. to infer more private details about her. As the second challenge, we aim at improving the learning process of recommendation systems. Our goal is to provide a k-nearest neighbor method that deals with very large amount of datasets, surpassing billions of users. We propose a generic, fast and scalable k-NN graph construction algorithm that improves significantly the performance as compared to the state-of-the art approaches. Our idea is based on leveraging the bipartite nature of the underlying dataset, and use a preprocessing phase to reduce the number of similarity computations in later iterations. As a result, we gain a speed-up of 14 compared to other significant approaches from literature. Finally, we also consider the issue of privacy. Instead of directly viewing it under trivial recommendation systems, we analyze it on Online Social Networks. First, we reason how OSNs can be seen as a form of recommendation systems and how information dissemination is similar to broadcasting opinion/reviews in trivial recommendation systems. Following this parallelism, we identify privacy threat in information diffusion in OSNs and provide a privacy preserving algorithm for the same. Our algorithm Riposte quantifies the privacy in terms of differential privacy and with the help of experimental datasets, we demonstrate how Riposte maintains the desirable information diffusion properties of a network

40

Lévesque, Johann. "Évaluation de la qualité des données géospatiales : approche top-down et gestion de la métaqualité." Thesis, Université Laval, 2007. http://www.theses.ulaval.ca/2007/24759/24759.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Depuis l’avènement du numérique, la demande de données par les utilisateurs des systèmes d’information géographique (SIG) ne fait qu’augmenter. Les organismes utilisateurs se retrouvent souvent devant plusieurs sources de données géographiques potentielles et ils doivent alors évaluer la qualité de chaque source en fonction de leurs besoins. Pour ce faire, ces organismes pourraient faire appel à un expert en qualité qui pourrait les aider à déterminer s’il y a adéquation (i.e. qualité externe) entre les données et leurs besoins. Pour utiliser le système MUM, l’expert en qualité doit recueillir de l’information sur les jeux de données. Dans le domaine de la géomatique, cette information se retrouve généralement sous la forme de métadonnées émises par les producteurs de données. Le système MUM, développé par Devillers et al. [2004b], a été conçu initialement en fonction d’une approche bottom-up, où on utilise des métadonnées fines pour extraire des indicateurs globaux de qualité, à l’aide d’opérateurs d’agrégation typiques des outils SOLAP. Il s’agit là d’une solution qui permet de faciliter l’analyse de la qualité, particulièrement dans des contextes de données hétérogènes. Par contre, comme le mentionnent les concepteurs de MUM, le manque de métadonnées fines est un obstacle à l’utilisation du système MUM dans sa forme actuelle. L’objectif de la présente recherche a donc été d’élaborer une méthode de génération des métadonnées dite top-down. Cette méthode permet de générer, lorsque possible, les métadonnées fines (au niveau des occurrences, voire des primitives géométriques) d’un jeu de données à l’aide des métadonnées grossières et des opinions d’experts touchant un ensemble d’occurrences. Cette méthodologie amène l’expert en qualité à utiliser dans certains cas des sources de données différentes. Ceci soulève alors un problème concernant l’hétérogénéité de la fiabilité des sources utilisées pour évaluer la qualité externe. Le concept de métaqualité a été introduit pour répondre à ce problème d’hétérogénéité. Il permet en effet de quantifier le risque lié à l’imperfection de l’information contenue dans les indicateurs de qualité. L’enrichissement du système MUM a donc été réalisé grâce à la conception du modèle E-QIMM (Extented Quality Information Management Model) qui est une extension du modèle QIMM de Devillers [2004] et qui permet d’intégrer la dimension « Métaqualité » dans le processus d’évaluation de la qualité.

41

Ubéda, Thierry. "Contrôle de la qualité spatiale des bases de données géographiques : cohérence topologique et corrections d'erreurs." Lyon, INSA, 1997. http://theses.insa-lyon.fr/publication/1997ISAL0116/these.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La contribution de ce travail s'inscrit dans le contrôle de la qualité spatiale des données géographiques. Les bases traitées sont les bases existantes et dont les données sont stockées dans un format vecteur (ou filaire). Nous ne nous attacherons pas à un modèle de données particulier, mais nous développerons des techniques adaptables à tout type de bases répondant aux deux critères donns ci-dessus. Les apports de cette étude dans le domaine de l'amélioration de la qualité des données géographiques se situent à deux niveaux complémentaires, conceptuel et sémantique, pour chacun desquels des méthodes de mise en oeuvre sont définies : Au niveau conceptuel sont définies des proporiétés géométriques applicables à des types d'objets géographiques en fonction de la dimension de la forme qui les représente (0,1 ou 2). Cette approche est indépendante du modèle de données et permet la construction d'une liste de propriétés à lui appliquer en fonction des objets qui le composent ; Au niveau sémantique, les relations spatiales entre les objets de la base sont prises en compte au moyen de contraintes d'intégrité topologiques. Elles ont pour but la définition de situations qui doivent ou ne doivent pas exister entre deux entités de la base
This work concerns spatial data quality checking in geographical data sets, and especially existing geographical vector databases. Methods developed in this work are not dedicated to a particular data model, but can be adapted to all database fulfilling the two criteria previously given. Concerning the issue of data quality enrichment, this study concerns two complementary levels, namely the conceptual and the semantic level. For each level, processes are developed :- At the conceptual level, geometric properties applicable to geographical data types depending on the dimension of the shape that represents them (0, 1 or 2) are defined. This approach is only based on the objects that compose the database and not on the data model itself. It can then be adapted to every vector geographical data set. - At the semantic level, spatial relation among objects of the database are taken into account by means of topological integrity constraints. They allow to define topological situation that should or should not happen

42

Heguy, Xabier. "Extensions de BPMN 2.0 et méthode de gestion de la qualité pour l'interopérabilité des données." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0375/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Business Process Model and Notation (BPMN) est en train de devenir le standard le plus utilisé pour la modélisation de processus métiers. Une des principales améliorations de BPMN 2.0 par rapport à BPMN 1.2 est le fait que les objets de données comportent maintenant des éléments sémantiques. Toutefois, BPMN ne permet pas la représentation des mesures de la performance dans le cadre de l'interopérabilité liée aux échanges de données. Ceci représente une lacune dans l'utilisation de BPMN quand on veut représenter les problèmes entrainés par un manque d'interopérabilité dans les processus métiers. Nous proposons d'étendre le méta-modèle Meta-Object Facility meta-model et le XML Schema Definition de BPMN ainsi que sa représentation graphique dans le but de combler ce manque. L'extension, nommée performanceMeasurement, est définie en utilisant le mécanisme d'extension de BPMN. Ce nouvel élément permettra de représenter les mesures de performance dans le cadre de problèmes d'interopérabilité ainsi que dans celui où ces problèmes ont été résolus. L'utilisation de cette extension est illustrée dans un cas d'étude industriel réel
Business Process Model and Notation (BPMN) is being becoming the most used standard for business process modelling. One of the important upgrades of BPMN 2.0 with respect to BPMN 1.2 is the fact that Data Objects are now handling semantic elements. Nevertheless, BPMN doesn't enable the representation of performance measurement in the case of interoperability problems in the exchanged data object, which remains a limitation when using BPMN to express interoperability issues in enterprise processes. We propose to extend the Meta-Object Facility meta-model and the XML Schema Definition of BPMN as well as the notation in order to fill this gap. The extension, named performanceMeasurement, is defined using the BPMN Extension Mechanism. This new element will allow to represent performance measurement in the case of interoperability problems as well as interoperability concerns which have been solved. We illustrate the use of this extension with an example from a real industrial case

43

Mouaddib, Noureddine. "Gestion des informations nuancées : une proposition de modèle et de méthode pour l'identification nuancée d'un phénomène." Nancy 1, 1989. http://www.theses.fr/1989NAN10475.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente une solution globale au problème de l'identification d'un phénomène ou d'un objet mal défini dans un domaine d'application décrit par des connaissances nuancées. Cette solution comprend trois éléments: un modèle de représentation des connaissances nuancées, une méthode de détermination des objets ressemblant au phénomène à identifier, un processus d'identification dans un système possédant une base de données multimédia. Le modèle de représentation des connaissances présente les particularités suivantes: une ou plusieurs nuances, exprimées en langue naturelle, peuvent être associés à chacune des valeurs prise par un caractère d'un objet, à chaque domaine de définition discret de caractère peut être associé un micro-thésaurus dont les liens (généricité, synonymie, opposition) peuvent être munis de coefficients exprimant certaines distances sémantiques entre les termes, des poids d'importance ou de confiance peuvent être associés à chaque caractère aussi bien dans la description des objets de référence que dans la description du phénomène à identifier. La méthode d'identification repose sur la théorie des possibilités dont nous avons assoupli l'application en diminuant le nombre de fonctions caractéristiques à fournir, par le spécialiste du domaine d'application, grâce à l'introduction d'heuristiques permettant soit de les générer à partir des micro-thérausus soit de les calculer à partir d'autres déjà définies par composition ou par transformation. Le processus d'identification permet une identification interactive et progressive au cours de laquelle alternent des phases de filtrage, d'affichage de résultats, d'observation d'images et de consultation de textes. En cas d'échec, nous proposons une stratégie de retour-arrière qui s'appuie sur les poids des caractères.

44

Barland, Rémi. "Évaluation objective sans référence de la qualité perçue : applications aux images et vidéos compressées." Nantes, 2007. http://www.theses.fr/2007NANT2028.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le passage au tout numérique et le développement des communications multimédias engendrent une circulation de l’information de plus en plus dense. Cet accroissement massif de la quantité de données échangées génère une saturation progressive des réseaux de transmission. Pour remédier à cette situation, les standards de compression cherchent à exploiter davantage la corrélation spatiale et/ou temporelle pour réduire les débits. La réduction d’information résultante génère des artéfacts visuels qui peuvent altérer le contenu visuel de la scène et donc provoquer une gêne chez l’utilisateur final. Afin de proposer le meilleur service de diffusion possible, la mesure de la qualité perçue est alors nécessaire. Les tests subjectifs qui représentent la méthode de référence pour quantifier la perception des dégradations, sont coûteux, lourds à mettre en œuvre et demeurent inappropriés pour une mesure de la qualité en ligne. Dans cette thèse, nous nous sommes intéressés aux standards de compression (image et vidéo) les plus usuels et avons élaboré des métriques de qualité sans référence basées sur l’exploitation des artéfacts visuels les plus gênants, tels que les effets de blocs, de flou et de ringing. L’approche proposée est modulaire et s’adapte au codeur considéré et au rapport complexité/performance recherché. Pour une faible complexité, la métrique quantifie les dégradations spécifiques au codeur considéré, en exploitant uniquement les propriétés du signal image. Pour atteindre de meilleures performances, au détriment d’une certaine complexité, celle-ci intègre en plus des modèles cognitifs simulant les mécanismes de l’attention visuelle. Les cartes de saillance générées par ces modélisations sont alors utilisées pour affiner les mesures de dégradations purement signal proposées
The conversion to the all-digital and the development of multimedia communications produce an ever-increasing flow of information. This massive increase in the quantity of data exchanged generates a progressive saturation of the transmission networks. To deal with this situation, the compression standards seek to exploit more and more the spatial and/or temporal correlation to reduce the bit rate. The reduction of the resulting information creates visual artefacts which can deteriorate the visual content of the scene and thus cause troubles for the end-user. In order to propose the best broadcasting service, the assessment of the perceived quality is then necessary. The subjective tests which represent the reference method to quantify the perception of distortions are expensive, difficult to implement and remain inappropriate for an on-line quality assessment. In this thesis, we are interested in the most used compression standards (image or video) and have designed no-reference quality metrics based on the exploitation of the most annoying visual artefacts, such as the blocking, blurring and ringing effects. The proposed approach is modular and adapts to the considered coder and to the required ratio between computational cost and performance. For a low complexity, the metric quantifies the distortions specific to the considered coder, only exploiting the properties of the image signal. To improve the performance, to the detriment of a certain complexity, this one integrates in addition, cognitive models simulating the mechanisms of the visual attention. The saliency maps generated are then used to refine the proposed distortion measures purely based on the image signal

45

Yildiz, Ustun. "Decentralisation des procédés métiers : qualité de services et confidentialité." Phd thesis, Université Henri Poincaré - Nancy I, 2008. http://tel.archives-ouvertes.fr/tel-00437469.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les travaux de recherche de cette thèse portent sur la modélisation et la gestion des procédés métiers orientés services. Le travail s'intéresse aux procédés d'un point de vue de gestion décentralisée où les services composés peuvent établir des interactions de pair–à-pair. Dans un premier temps, nous présentons une méthode qui permet de dériver des procédés coopérants à partir d'une spécification centralisée. Il s'agit des algorithmes qui analysent un procédé centralisé pour le traduire en procédés coopérants, en transformant le flux de contrôle et le flux de données du procédé d'origine en interactions équivalentes de type pair-à-pair. Un des apports de la décentralisation, qui répond à une nouvelle exigence des procédés orientés vers les services, est l'établissement des interactions de pair-à-pair qui respectent le flux d'information des services composés. La deuxième partie du travail est la proposition d'un langage permettant d'exprimer des politiques de flux d'information. Par la suite, nous étudions l'intégration des politiques du flux d'information dans les procédés coopérants. Le choix d'un service entrant dans une composition peut être effectué dynamiquement, au moment de l'exécution du procédé, de sorte que l'ensemble des services composés n'est pas connu à priori. Une compréhension de la stratégie de choix dynamique des services et leur intégration dans le cadre des contributions proposées dans son ensemble est pour cela une étape centrale. Pour ce faire, une méthodologie qui automatise le processus de déploiement dynamique des procédés coopérants est proposée. Letravail présente une architecture logicielle qui valide les concepts proposés.

46

Devillers, Rodolphe. "Conception d'un système multidimensionnel d'information sur la qualité des données géospatiales." Phd thesis, Université de Marne la Vallée, 2004. http://tel.archives-ouvertes.fr/tel-00008930.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'information géographique est maintenant un produit de masse fréquemment manipulé par des utilisateurs non-experts en géomatique qui ont peu ou pas de connaissances de la qualité des données qu'ils utilisent. Ce contexte accroît significativement les risques de mauvaise utilisation des données et ainsi les risques de conséquence néfaste résultant de ces mauvaises utilisations. Cette thèse vise à fournir à des utilisateurs experts ou des experts en qualité une approche leur permettant d'évaluer la qualité des données et ainsi être à même de conseiller des utilisateurs non-experts dans leur utilisation des données. Cette approche se base sur une structuration des données de qualité dans une base de données multidimensionnelle et une communication dynamique et contextuelle utilisant des indicateurs de qualité affichés dans un système SOLAP (Spatial On-Line Analytical Processing) combiné à un système d'information géographique.

47

Isambert, Aurélie. "Contrôle de qualité et optimisation de l'acquisition des données en imagerie multimodale pour la radiothérapie externe." Paris 11, 2009. http://www.theses.fr/2009PA11T006.

Full text

APA, Harvard, Vancouver, ISO, and other styles

48

Claeyman, Marine. "Etude par modélisation et assimilation de données d'un capteur infrarouge géostationnaire pour la qualité de l'air." Toulouse 3, 2010. http://thesesups.ups-tlse.fr/1216/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de cette thèse porte sur la définition d'un capteur géostationnaire infrarouge pour l'observation de la composition chimique de la basse troposphère et l'évaluation de la valeur ajoutée de cet instrument afin de caractériser la variabilité de la moyenne et basse troposphère des principaux polluants et d'améliorer l'observation et les prévisions de la qualité de l'air. Nous nous sommes intéressés à deux polluants importants: l'ozone troposphérique en raison de son impact sur la santé humaine, les écosystèmes et le climat, et le monoxyde de carbone (CO) qui est un traceur de pollution nous renseignant sur les sources d'émissions et les processus de transport. Dans un premier temps, une évaluation d'un schéma linéaire pour la chimie du CO a été effectuée sur une période d'un an et demi en comparaison avec un schéma chimique détaillé (RACMOBUS) et différents types d'observations troposphériques et stratosphériques (satellitaires, aéroportées). L'intérêt principal de ce schéma est son faible coût en temps de calcul qui permet une assimilation sur de longues périodes de jeux de données de CO. L'assimilation de données MOPITT (Measurements Of Pollution In The Troposphere) dans ce schéma a d'ailleurs permis d'évaluer la valeur ajoutée de données d'observations infrarouges à l'échelle globale. Ensuite, les caractéristiques optimales du capteur géostationnaire infrarouge ont été définies en réalisant des études d'inversion de spectres atmosphériques pour sonder l'ozone et le CO pour la qualité de l'air, le but étant d'avoir un capteur techniquement et économiquement faisable, capable de sonder la basse troposphère. Le contenu en information de cet instrument a été comparé, en période estivale, à l'information apportée par un autre instrument infrarouge géostationnaire similaire à MTG-IRS (Meteosat Third Generation - Infrared Sounder), optimisé pour la mesure de la vapeur d'eau et de la température mais capable d'avoir une information sur la composition chimique de l'atmosphère. Enfin dans une dernière partie, la valeur ajoutée de ces deux instruments dans le modèle de qualité de l'air MOCAGE, a été quantifiée en utilisant des expériences de simulation de système d'observations sur une période de deux mois d'été (juillet - août 2009). La capacité de ces deux instruments à corriger différentes sources d'erreurs (les forçages atmosphériques, les émissions, l'état initial et les trois paramètres réunis) qui affectent les prévisions et simulations de qualité de l'air, a été quantifiées. Au final, l'instrument que nous avons défini s'avère effectivement capable d'apporter une contrainte efficace sur les champs d'ozone et de CO dans la moyenne et basse troposphère
The objective of this thesis is to define a geostationary infrared sensor to observe the atmospheric composition of the lowermost troposphere. We evaluate the potential added value of such an instrument at characterizing the variability of the main pollutants and improving air quality observations and forecasts. We focus on two air quality key pollutants: tropospheric ozone, because of its impact on human health, ecosystems and climate; carbon monoxide (CO), which is a tracer of pollutants emissions. Firstly, an evaluation of a linear scheme for the CO chemistry during one year and a half has been performed in comparison with a detailed chemical scheme (RACMOBUS) and different tropospheric and stratospheric observations (satellite and aircraft data). The advantage of such a scheme is its low computational cost which allows data assimilation of CO during long periods. Assimilation of CO data from the Measurements Of Pollution In The Troposphere (MOPITT) instrument allows us to evaluate the information brought by such infrared observations at the global scale. Secondly, the optimal configuration of a new infrared geostationary sensor has been defined using retrieval studies of atmospheric spectra with the objectives to contribute to the monitoring of ozone and CO for air quality purposes; our constraint also set the ground for a sensor with technically feasible and affordable characteristics. For reference, the information content of this instrument has been compared during summer to the information content from another infrared geostationary instrument similar to MTG-IRS (Meteosat Third Generation - Infrared Sounder), optimized to monitor water vapour and temperature but with monitoring atmospheric composition as Lastly, the potential added value of both instruments for air quality prognoses has been compared using observing system simulation experiments (OSSEs) over two summer months (July - August 2009). The skill of the two instruments to correct different error sources (atmospheric forcing, emission, initial state and the three conditions together) affecting air quality simulations and forecasts, has been characterised. In the end, it is concluded that the instrument configuration proposed is effectively able to bring a constraint on ozone and CO fields in the mid-to-low troposphere

49

Pellay, François-Xavier. "Méthodes d'estimation statistique de la qualité et méta-analyse de données transcriptomiques pour la recherche biomédicale." Thesis, Lille 1, 2008. http://www.theses.fr/2008LIL10058/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La connaissance des gènes exprimés dans une cellule, dans des conditions physiologiques ou pathologiques, est un élément essentiel à la compréhension des phénomènes biologiques qui la gouvernent. Parmi les technologies permettant de mesurer l'expression génique, la plus utilisée est la technologie des puces à ADN capable de mesurer l'abondance relative des gènes exprimés dans les cellules. Les puces qualifiées de pangénomiques sont supposées couvrir l'ensemble des gènes existants, soit près de trente-mille dans l'espèce humaine. La mesure, l'analyse et l'interprétation d'une telle quantité de données posent un certain nombre de problèmes et la maîtrise des méthodes d'analyse utilisées déterminera la fiabilité et la précision des informations obtenues. Le but de cette thèse est de définir des méthodes permettant de contrôler les mesures, d'améliorer l'analyse et d'approfondir l'interprétation des données transcriptomiques afin d'en optimiser l'utilisation et de pouvoir appliquer ces méthodes pour analyser le transcriptome de patient atteint de leucémie myélomonocytalre juvénile dans le but d'améliorer le diagnostic et de comprendre les mécanismes biologiques de cette maladie rare. Nous avons ainsi développé, et validé au travers de nombreux projets indépendants, un programme de contrôle qualité des puces, ainsi qu'un logiciel qui permet d'améliorer les interprétations biologiques des données microarrays basées sur les ontologies des gènes, et un outil de visualisation et d'analyse globale des voies de signalisation. Enfin, en combinant plusieurs des approches , décrites, nous avons mis au point une méthode pour obtenir des signatures biologiques fiables à des fins diagnostiques
To understand the biological phenomena taking place in a cell under physiological or pathological conditions, it is essential to know the genes that it expresses Measuring genetic expression can be done with DNA chlp technology on which are set out thousands of probes that can measure the relative abundance of the genes expressed in the cell. The microarrays called pangenomic are supposed to cover all existing proteincoding genes, that is to say currently around thirty-thousand for human beings. The measure, analysis and interpretation of such data poses a number of problems and the analytlcal methods used will determine the reliability and accuracy of information obtained with the microarrays technology. The aim of thls thesis is to define methods to control measures, improve the analysis and deepen interpretation of microarrays to optimize their utilization in order to apply these methods in the transcriptome analysis of juvenile myelomocytic leukemia patients, to improve the diagnostic and understand the biological mechanisms behind this rare disease. We thereby developed and validated through several independent studies, a quality control program for microarrays, ace.map QC, a software that improves biological Interpretations of microarrays data based on genes ontologies and a visualization tool for global analysis of signaling pathways. Finally, combining the different approaches described, we have developed a method to obtain reliable biological signatures for diagnostic purposes

50

Andrieu, Pierre. "Passage à l'échelle, propriétés et qualité des algorithmes de classements consensuels pour les données biologiques massives." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG041.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les médecins et biologistes sont régulièrement amenés à interroger des bases de données biologiques publiques, par exemple lorsqu’ils se renseignent sur les gènes les plus associés à une maladie donnée. Le mot-clé choisi au moment d’interroger la base de données est particulièrement important : plusieurs reformulations synonymes d’une même maladie (par exemple « breast cancer » et « breast carcinoma ») aboutissent à des classements parfois très différents pouvant aller jusqu’à plusieurs milliers de gènes. Certains gènes, triés par pertinence, peuvent se retrouver à égalité (importance égale vis-à-vis de la maladie). De plus, certains gènes retournés en utilisant certaines reformulations peuvent être absents lorsque d’autres reformulations sont choisies. On dit alors que les classements sont incomplets et avec égalités. L’enjeu est alors de combiner l’information apportée par ces différents classements de gènes. La problématique consistant à partir d’une liste de classements et de calculer un classement dit consensuel aussi représentatif que possible des classements d’entrée est appelée « agrégation de classements ». Ce problème est connu pour être NP-difficile. Alors que la majorité des travaux considèrent les classements complets et sans égalités, nous nous sommes placés dans le contexte des classements incomplets avec égalités. Nos contributions peuvent se décomposer en trois parties. Premièrement, nous avons conçu une heuristique basée sur des graphes qui consiste à partitionner le problème de départ en sous-problèmes indépendants pour le cas où les classements sont incomplets et avec égalités. Deuxièmement, nous avons conçu un algorithme capable de déterminer des points communs entre tous les classements consensuels optimaux, permettant ainsi de fournir à l’utilisateur une indication quant à la robustesse du classement consensuel renvoyé. Une étude expérimentale sur un grand nombre de jeux de données biologiques massifs a mis en évidence la pertinence biologique des résultats fournis par nos méthodes. La dernière contribution est la suivante : les données manquantes pouvant s’interpréter de différentes façons selon le contexte, nous avons proposé un modèle paramétré permettant de prendre en compte ces différences. Nous avons conçu des algorithmes pour ce modèle et fait une étude axiomatique de ce dernier en nous basant sur la théorie du choix social
Biologists and physicians regularly query public biological databases, for example when they are looking for the most associated genes towards a given disease. The chosen keyword are particularly important: synonymous reformulations of the same disease (for example "breast cancer" and "breast carcinoma") may lead to very different rankings of (thousands of) genes. The genes, sorted by relevance, can be tied (equal importance towards the disease). Additionally, some genes returned when using a first synonym may be absent when using another synonym. The rankings are then called "incomplete rankings with ties". The challenge is to combine the information provided by these different rankings of genes. The problem of taking as input a list of rankings and returning as output a so-called consensus ranking, as close as possible to the input rankings, is called the "rank aggregation problem". This problem is known to be NP-hard. Whereas most works focus on complete rankings without ties, we considered incomplete rankings with ties. Our contributions are divided into three parts. First, we have designed a graph-based heuristic able to divide the initial problem into independent sub-problems in the context of incomplete rankings with ties. Second, we have designed an algorithm able to identify common points between all the optimal consensus rankings, allowing to provide information about the robustness of the provided consensus ranking. An experimental study on a huge number of massive biological datasets has highlighted the biological relevance of these approaches. Our last contribution the following one : we have designed a parameterized model able to consider various interpretations of missing data. We also designed several algorithms for this model and did an axiomatic study of this model, based on social choice theory

Dissertations / Theses on the topic 'Qualité des données et des informations'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles