Bibliografías temáticas / Imputation de données manquantes

Índice

Artículos de revistas
Tesis
Libros
Capítulos de libros

Literatura académica sobre el tema "Imputation de données manquantes"

Autor: Grafiati

Publicado: 22 de febrero de 2025

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Imputation de données manquantes".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Artículos de revistas sobre el tema "Imputation de données manquantes"

Galimard, J. E., S. Chevret y M. Resche-Rigon. "Imputation multiple en présence de données manquantes MNAR". Revue d'Épidémiologie et de Santé Publique 63 (mayo de 2015): S42. http://dx.doi.org/10.1016/j.respe.2015.03.014.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Badisy, I. El, C. Nejjari, A. Naim, K. El Rhaz, M. Khalis y R. Giorgi. "CO10.6 - Imputation des données manquantes par un méta-algorithme (metaCART): étude de simulation". Revue d'Épidémiologie et de Santé Publique 71 (mayo de 2023): 101632. http://dx.doi.org/10.1016/j.respe.2023.101632.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Aurélien, Njamen Kengdo Arsène y Kwatcho Kengdo Steve. "Gestion Des Donnees Manquantes Dans Les Bases De Donnees En Sciences Sociales : Algorithme Nipals Ou Imputation Multiple?" European Scientific Journal, ESJ 12, n.º 35 (31 de diciembre de 2016): 390. http://dx.doi.org/10.19044/esj.2016.v12n35p390.

Texto completo

Resumen

The main objective of this paper is to assess the robustness of imputation methods to fill up the series of secondary data in social sciences. The methodology used, especially that of mean imputation, multiple imputation and NIPALS algorithm, is based on a simulation using observed data. Results show a close similarity between the observed data and the data obtained by multiple imputation, mean imputation and NIPALS algorithm. The results also suggest that multiple imputation provides values substantially similar to observed data.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Soullier, N., E. de la Rochebrochard y J. Bouyer. "Imputation multiple et répartition des données manquantes dans les cohortes : exemple de la fécondation in vitro". Revue d'Épidémiologie et de Santé Publique 56, n.º 5 (septiembre de 2008): 276. http://dx.doi.org/10.1016/j.respe.2008.06.077.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Legendre, Bruno, Damiano Cerasuolo, Olivier Dejardin y Annabel Boyer. "Comment gérer les données manquantes ? Imputation multiple par équations chaînées : recommandations et explications pour la pratique clinique". Néphrologie & Thérapeutique 19, n.º 3 (1 de junio de 2023): 1–9. http://dx.doi.org/10.1684/ndt.2023.24.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

De Keizer, J., J. Paul, M. Albouy, A. Dupuis, V. Migeot, S. Rabouan, N. Venisse y E. Gand. "Simulation et imputation de plusieurs variables corrélées dans un contexte de données manquantes de façon non aléatoires (MNAR)". Revue d'Épidémiologie et de Santé Publique 69 (junio de 2021): S32—S33. http://dx.doi.org/10.1016/j.respe.2021.04.052.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Caron, A., G. Clément, C. Heyman, E. Aernout, E. Chazard y A. Le Tertre. "Détermination de l’exposition de 394 979 nouveau-nés par imputation multiple de données manquantes dans une étude épidémiologique". Revue d'Épidémiologie et de Santé Publique 63 (marzo de 2015): S9. http://dx.doi.org/10.1016/j.respe.2015.01.016.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Basham, C. Andrew. "Variations régionales de prévalence de la multimorbidité en Colombie-Britannique (Canada) : analyse transversale des données de l’Enquête sur la santé dans les collectivités canadiennes de 2015-2016". Promotion de la santé et prévention des maladies chroniques au Canada 40, n.º 7/8 (julio de 2020): 251–61. http://dx.doi.org/10.24095/hpcdp.40.7/8.02f.

Texto completo

Resumen

Introduction La multimorbidité constitue une préoccupation majeure pour les planificateurs de la santé de la population et de la prestation de services. Il est important de disposer de données sur la prévalence (en chiffres absolus et en proportions) de la multimorbidité au sein des populations régionales bénéficiant des services de santé afin de planifier les soins liés à la multimorbidité. Au Canada, il n’existe pas de publication systématique des estimations de prévalence de la multimorbidité par région sanitaire. L’Enquête sur la santé dans les collectivités canadiennes (ESCC) offre une source de données utile pour effectuer ces estimations. Méthodologie Nous avons utilisé les données du cycle 2015-2016 de l’ESCC portant sur la ColombieBritannique (C.B.) pour estimer et comparer la prévalence de la multimorbidité (trois maladies chroniques ou plus) au moyen d’analyses pondérées. Nous avons calculé les fréquences et les proportions brutes de la multimorbidité en fonction de la zone de prestation de services de santé (ZPSS) de la C.B. Nous avons eu recours à une régression logistique pour estimer les variations de prévalence de la multimorbidité par ZPSS, avec ajustement pour divers facteurs de confusion connus. Nous avons réalisé, en guise d’analyse de sensibilité, une imputation multiple au moyen d’équations en chaîne pour les valeurs des covariables manquantes. Nous avons également modifié la définition de la multimorbidité pour réaliser une analyse de sensibilité supplémentaire. Résultats On estime à 681 921 le nombre total de personnes atteintes de multimorbidité en C.-B. (16,9 % de la population) en 2015-2016. La prévalence de la multimorbidité à Vancouver (rapport de cotes corrigé = 0,65; IC à 95 % : 0,44 à 0,97) et à Richmond (rapport de cotes corrigé = 0,55; IC à 95 % : 0,37 à 0,82) s’est révélée beaucoup plus faible qu’à Fraser Sud (ZPSS de référence). Les résultats de l’analyse des données manquantes et de l’analyse de sensibilité étaient compatibles avec ceux de l’analyse principale. Conclusion Les estimations de prévalence de la multimorbidité varient en fonction des régions sanitaires de la C.B., les estimations les plus faibles ayant été observées à Vancouver et à Richmond, après ajustement pour divers facteurs de confusion potentiels. Il est nécessaire d’élaborer des politiques et d’établir les priorités en matière de soins liés à la multimorbidité à l’échelle provinciale et régionale. Dans ce contexte, l’ESCC constitue une source d’information précieuse pour les analyses régionales de multimorbidité au Canada.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Trempe, Normand, Marie-Claude Boivin, Ernest Lo y Amadou Diogo Barry. "L’utilisation de la variable sur la langue d’usage à la maison du Registre des décès du Québec". Notes de recherche 43, n.º 1 (4 de junio de 2014): 163–80. http://dx.doi.org/10.7202/1025494ar.

Texto completo

Resumen

La mortalité est une des mesures de la santé globale de la population les plus utilisées et on peut y intégrer une composante linguistique et culturelle en utilisant la langue d’usage à la maison qui est inscrite au Registre des décès du Québec. Nous avons exploré les fichiers des décès du Québec de 1990 à 2007 afin de mesurer les proportions d’absence de réponse selon différentes variables comme la région sociosanitaire, l’établissement ou le type de déclarant. Nous concluons à la suite de cette étude exploratoire que l’information est suffisamment exacte pour donner un portrait réaliste de la mortalité par groupes linguistiques. Nous recommandons de faire une imputation pour les valeurs manquantes et nous proposons certaines améliorations à l’enregistrement de la variable linguistique au Registre des décès du Québec.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Doggett, Amanda, Ashok Chaurasia, Jean-Philippe Chaput y Scott T. Leatherdale. "Utilisation des arbres de classification et de régression pour modéliser les données manquantes sur l’IMC, la taille et la masse corporelle chez les jeunes". Promotion de la santé et prévention des maladies chroniques au Canada 43, n.º 5 (mayo de 2023): 257–69. http://dx.doi.org/10.24095/hpcdp.43.5.03f.

Texto completo

Resumen

Introduction Les données issues de mesures de l’indice de masse corporelle (IMC) autodéclarées par les jeunes comportent souvent de graves lacunes, ce qui peut avoir un effet important sur les résultats des recherches les utilisant. La première étape du traitementdes données manquantes consiste à étudier leur niveau et leur structuration. Or les études antérieures qui ont analysé les données manquantes sur l’IMC chez les jeunes ont utilisé une régression logistique, une approche limitée dans sa capacité à discerner des sous-groupes ou à obtenir une hiérarchie dans l’importance des variables, des dimensions pourtant susceptibles de contribuer grandement à la compréhension de la structuration des données manquantes. Methods Cette étude a utilisé des modèles d’arbre de classification et de régression (CART, pour classification and regression tree) stratifiés selon le sexe pour analyser les données manquantes sur la taille, la masse corporelle et l’IMC chez 74 501 jeunes participant à l’étude COMPASS 2018-2019 (une étude de cohorte prospective qui a porté sur les comportements de santé des jeunes canadiens), dans laquelle 31 % des données sur l’IMC étaient manquantes. Des variables telles que le régime alimentaire, le mouvement, les résultats scolaires, la santé mentale et l’utilisation de substances ont été étudiées afin de vérifier leurs associations avec les données manquantes sur la taille, la masse corporelle et l’IMC. Results D’après les modèles CART, le fait d’être à la fois plus jeune, de se sentir en surpoids, d’être moins actif physiquement et d’avoir une santé mentale moins bonne a produit des sous-groupes de filles et de garçons où il était très probable que des valeurs d’IMC soient manquantes. Les données manquantes sur l’IMC étaient moins probables chez les répondants de l’enquête plus âgés et ne se sentant pas en surpoids. Conclusion Si l’on se fie aux sous-groupes produits par les modèles CART, utiliser un échantillon au sein duquel les cas dont la valeur de l’IMC est manquante ont été supprimés conduirait à tenir davantage compte des jeunes en meilleure santé sur les plans physique, émotionnel et mental. Étant donné que les modèles CART sont aptes à discerner ces sous-groupes ainsi qu’à établir une hiérarchie dans l’importance des variables, ils constituent un outil précieux pour étudier la structuration des données manquantes et la manière appropriée de gérer ces dernières.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Más fuentes

Tesis sobre el tema "Imputation de données manquantes"

Bernard, Francis. "Méthodes d'analyse des données incomplètes incorporant l'incertitude attribuable aux valeurs manquantes". Mémoire, Université de Sherbrooke, 2013. http://hdl.handle.net/11143/6571.

Texto completo

Resumen

Lorsqu'on réalise une analyse des données dans le cadre d'une enquête, on est souvent confronté au problème des données manquantes. L'une des solutions les plus fréquemment utilisées est d'avoir recours aux méthodes d'imputation simple. Malheureusement, ces méthodes souffrnt d'un handicap important : les estimations courantes basées sur les valeurs observées et imputées considèrent à tort les valeurs imputées comme des valeurs connues, bien qu'une certaine forme d'incertitude plane au sujet des valeurs à imputer. En particulier, les intervalles de confiance pour les paramètres d'intérêt basés sur les données ainsi complétées n'incorporent pas l'incertitude qui est attribuable aux valeurs manquantes. Les méthodes basées sur le rééchantillonnage et l'imputation multiple -- une généralisation de l'imputation simple -- s'avèrent toutes deux des solutions courantes convenables au problème des données manquantes, du fait qu'elles incorporent cette incertitude. Une alternative consiste à avoir recours à l'imputation multiple à deux niveaux, une généralisation de l'imputation multiple (conventionnelle) qui a été développée dans la thèse que Shen [51] a rédigée en 2000 et qui permet d'exploiter les situations où la nature des valeurs manquantes suggère d'effectuer la procédure d'imputation en deux étapes plutôt qu'en une seule. Nous décrirons ces méthodes d'analyse des données incomplètes qui incorporent l'incertitude attribuable aux valeurs manquantes, nous soulèverons quelques problématiques intéressantes relatives au recours à ces méthodes et nous y proposerons des solutions appropriées. Finalement, nous illustrerons l'application de l'imputation multiple conventionnelle et de l'imputation multiple à deux niveaux au moyen d'exemples simples et concrets.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Audigier, Vincent. "Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes". Thesis, Rennes, Agrocampus Ouest, 2015. http://www.theses.fr/2015NSARG015/document.

Texto completo

Resumen

Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev
This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods

Los estilos APA, Harvard, Vancouver, ISO, etc.

Héraud, Bousquet Vanina. "Traitement des données manquantes en épidémiologie : application de l’imputation multiple à des données de surveillance et d’enquêtes". Thesis, Paris 11, 2012. http://www.theses.fr/2012PA11T017/document.

Texto completo

Resumen

Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d’intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L’objectif de ce travail a été d’investiguer et d’appliquer une méthode d’imputation multiple à des données transversales d’enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l’application d’une méthode d’imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l’infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d’une base de données de surveillance de l’hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind’identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d’application d’une analyse de sensibilité aux hypothèses sous-jacentes àl’imputation multiple. Enfin, nous avons décrit l’élaboration d’un processus d’imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d’évaluation et devalidation.Les applications pratiques présentées nous ont permis d’élaborer une stratégie de traitement des données manquantes, incluant l’examen approfondi de la base de données incomplète, la construction du modèle d’imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses
The management of missing values is a common and widespread problem in epidemiology. The most common technique used restricts the data analysis to subjects with complete information on variables of interest, which can reducesubstantially statistical power and precision and may also result in biased estimates.This thesis investigates the application of multiple imputation methods to manage missing values in epidemiological studies and surveillance systems for infectious diseases. Study designs to which multiple imputation was applied were diverse: a risk analysis of HIV transmission through blood transfusion, a case-control study on risk factors for ampylobacter infection, and a capture-recapture study to estimate the number of new HIV diagnoses among children. We then performed multiple imputation analysis on data of a surveillance system for chronic hepatitis C (HCV) to assess risk factors of severe liver disease among HCV infected patients who reported drug use. Within this study on HCV, we proposedguidelines to apply a sensitivity analysis in order to test the multiple imputation underlying hypotheses. Finally, we describe how we elaborated and applied an ongoing multiple imputation process of the French national HIV surveillance database, evaluated and attempted to validate multiple imputation procedures.Based on these practical applications, we worked out a strategy to handle missing data in surveillance data base, including the thorough examination of the incomplete database, the building of the imputation model, and the procedure to validate imputation models and examine underlying multiple imputation hypotheses

Los estilos APA, Harvard, Vancouver, ISO, etc.

Croiseau, Pascal. "Influence et traitement des données manquantes dans les études d'association sur trios : application à des données sur la sclérose en plaques". Paris 11, 2008. http://www.theses.fr/2008PA112021.

Texto completo

Resumen

Pour tester l’association entre une maladie et un jeu de marqueurs, ou pour estimer les risques de la maladie, différentes méthodes ont été développés. Plusieurs de ces méthodes nécessitent que les individus soient génotypés pour l’ensemble des marqueurs et lorsque cette condition n’est pas respectée, les individus avec données manquantes sont alors exclus de l’analyse. Nous avons pu montrer que cette solution, qui conduit à une diminution importante de la taille de l’échantillon, pouvait aboutir à une perte de puissance pour détecter une association mais également à de fausses conclusions. Au cours de ma thèse, nous avons adapté aux données génétiques une méthode statistique nommée « imputation multiple » permettant de compléter les données manquantes par des données plausibles. D'après les études de simulation que nous avons menées, notre méthode apparaît comme un outil prometteur dans la recherche de variants de susceptibilité tant par sa simplicité d'utilisation que par sa fléxibilité aux modèles génétiques. Nous avons appliqué cette méthode sur un échantillon de 450 familles trios constituées d'un enfant atteint de Sclérose en Plaques et de ses deux parents. Des travaux récents ont mis en évidence une association entre un polymorphisme du gène CTLA4 et la Sclérose en Plaques. Cependant, CTLA4 fait partie du cluster de gènes CD28, CTLA4, ICOS par conséquent, cette association pourrait être due à un autre marqueur en déséquilibre de liaison avec celui-ci. Notre méthode nous a permis de retrouver l'implication du polymorphisme de CTLA4 mais également de fournir une nouvelle piste avec un polymorphisme de CD28 qui pourrait interagir avec le polymorphisme de CTLA4
To test for association between a set of markers and a disease, or to estimate the disease risks, different methods have been developped. Several of these methods need that all individuals are genotyped for all markers. When it is not the case, individuals with missing data are discarded. We have shown that this solution, which leads to a strong decrease of the sample size, could involve a loss of power to detect an association but also to false conclusion. In this work, we adapted to genetic data a method of "multiple imputation" that consists in replacing missing data by plausible values. Results obtained from simulated data show that this approach is promising to search for disease susceptibility genes. It is simple to use and very flexible in terms of genetic models that can be tested. We applied our method to a sample of 450 multiple sclerosis family trios (an affected child and both parents). Recent works have detected an association between a polymorphism of CTLA4 gene and multiple sclerosis. However, CTLA4 belongs to a cluster of three gene CD28, CTLA4 and ICOS all involved in the immune response. Consequently, this association could be due to another marker in linkage disequilibrium with CTLA4. Our method allows us to detect the association with CTLA4's polymorphism and also to provide us with a new candidate to explore : a CD28 polymorphism which could be involved in multiple sclerosis in interaction with the CTLA4 polymorphism

Los estilos APA, Harvard, Vancouver, ISO, etc.

Etourneau, Lucas. "Contrôle du FDR et imputation de valeurs manquantes pour l'analyse de données de protéomiques par spectrométrie de masse". Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALS001.

Texto completo

Resumen

La protéomique consiste en la caractérisation du protéome d’un échantillon biologique, c’est-à-dire l’ensemble des protéines qu’il contient, et ce de la manière la plus exhaustive possible. Par l’identification et la quantification de fragments de protéines analysables en spectrométrie de masse (appelés peptides), la protéomique donne accès au niveau d’expression des gènes à un instant donné, ce qui est une information capitale pour améliorer la compréhension des mécanismes moléculaires en jeu au sein du vivant. Ces expériences produisent de grandes quantités de données, souvent complexes à interpréter et sujettes à certains biais. Elles requièrent des méthodes de traitement fiables et qui assurent un certain contrôle qualité, afin de garantir la pertinence des conclusions biologiques qui en résultent.Les travaux de cette thèse portent sur l'amélioration de ces traitements de données, et plus particulièrement sur les deux points majeurs suivants:Le premier est le contrôle du taux de fausses découvertes (abrégé en FDR pour “False Discovery Rate”), durant les étapes d’identification (1) des peptides, et (2) de biomarqueurs quantitativement différentiels entre une condition biologique testée et son contrôle négatif. Nos contributions portent sur l'établissement de liens entre les méthodes empiriques propres à la protéomique, et d’autres méthodes théoriquement bien établies. Cela nous permet notamment de donner des directions à suivre pour l’amélioration des méthodes de contrôle du FDR lors de l'identification de peptides.Le second point porte sur la gestion des valeurs manquantes, souvent nombreuses et de nature complexe, les rendant impossible à ignorer. En particulier, nous avons développé un nouvel algorithme d’imputation de valeurs manquantes qui tire parti des spécificités des données de protéomique. Notre algorithme a été testé et comparé à d’autres méthodes sur plusieurs jeux de données et selon des métriques variées, et obtient globalement les meilleures performances. De plus, il s’agit du premier algorithme permettant d’imputer en suivant le paradigme en vogue de la “multi-omique”: il peut en effet s’appuyer, lorsque cela est pertinent, sur des informations de type transcriptomique, qui quantifie le niveau d’expression des ARN messagers présents dans l’échantillon, pour imputer de manière plus fiable. Finalement, Pirat est implémenté dans un paquet logiciel disponible gratuitement, ce qui rend facilement utilisable pour la communauté protéomique
Proteomics involves characterizing the proteome of a biological sample, that is, the set of proteins it contains, and doing so as exhaustively as possible. By identifying and quantifying protein fragments that are analyzable by mass spectrometry (known as peptides), proteomics provides access to the level of gene expression at a given moment. This is crucial information for improving the understanding of molecular mechanisms at play within living organisms. These experiments produce large amounts of data, often complex to interpret and subject to various biases. They require reliable data processing methods that ensure a certain level of quality control, as to guarantee the relevance of the resulting biological conclusions.The work of this thesis focuses on improving this data processing, and specifically on the following two major points:The first is controlling for the false discovery rate (FDR), when either identifying (1) peptides or (2) quantitatively differential biomarkers between a tested biological condition and its negative control. Our contributions focus on establishing links between the empirical methods stemmed for proteomic practice and other theoretically supported methods. This notably allows us to provide directions for the improvement of FDR control methods used for peptide identification.The second point focuses on managing missing values, which are often numerous and complex in nature, making them impossible to ignore. Specifically, we have developed a new algorithm for imputing them that leverages the specificities of proteomics data. Our algorithm has been tested and compared to other methods on multiple datasets and according to various metrics, and it generally achieves the best performance. Moreover, it is the first algorithm that allows imputation following the trending paradigm of "multi-omics": if it is relevant to the experiment, it can impute more reliably by relying on transcriptomic information, which quantifies the level of messenger RNA expression present in the sample. Finally, Pirat is implemented in a freely available software package, making it easy to use for the proteomic community

Los estilos APA, Harvard, Vancouver, ISO, etc.

Héraud, Bousquet Vanina. "Traitement des données manquantes en épidémiologie : Application de l'imputation multiple à des données de surveillance et d'enquêtes". Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00713926.

Texto completo

Resumen

Los estilos APA, Harvard, Vancouver, ISO, etc.

Lorga, Da Silva Ana. "Tratamento de dados omissos e métodos de imputação em classificação". Doctoral thesis, Instituto Superior de Economia e Gestão, 2005. http://hdl.handle.net/10400.5/3849.

Texto completo

Resumen

Doutoramento em Matemática Aplicada à Economia e à Gestão
Neste trabalho, pretende-se estudar o efeito dos dados omissos em classificação de variáveis, principalmente em classificação hierárquica ascendente, de acordo com.òs seguintes factores: percentagens de dados omissos, métodos de imputação, coeficientes de semelhança-e métodos de classificação. Supõe-se que os dados omissos são do tipo MAR ("missing at random"), isto é, a presença de dados omissos não depende dos valores omissos, nem das variáveis com dados omissos, mas depende de valores observados sobre outras variáveis da matriz de dados. Os dados omissos satisfazem um padrão maioritariamente monótono. Utilizaram-se as técnicas, em presença de dados omissos "listwise" e "pairwise"; como métodos de imputação simples: o algoritmo EM, o modelo de regressão OLS, o algoritmo MPALS e um método de regressão PLS. Como métodos de imputação múltipla, adoptou-se um método baseado sobre o modelo de regressão OLS associado a técnicas bayesianas; propôs-se também um novo método de imputação múltipla baseado sobre os métodos de regressão PLS. Como métodos de classificação hierárquica utilizaram-se classificações clássicas e probabilísticas, estas últimas baseadas na família de métodos VL (validade da ligação). Os métodos de classificação hierárquica utilizados foram, "single", "complete" e "average" "linkage", AVL e AYB. Para as matrizes de semelhança utilizou-se o coeficiente de afinidade básico (para dados contínuos) - que corresponde ao índice d'Ochiai para dados binários; o coeficiente de correlação de Pearson e a aproximação probabilística do coeficiente de afinidade centrado e reduzido pelo método-W. O estudo foi baseado em dados simulados e reais. Utilizou-se o coeficiente de Spearman, para comparar as estruturas de classificação hierárquicas e para as classificações não hierárquicas o índice de Rand.
Le but de ce travail est d'étudier l’effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants: pourcentage de données manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes sont du type MAR («missing at random») données manquantes au hasard, mais pas. complètement au hasard.. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes lisîwise et pairwise et comme méthodes d'imputation simple: l'algorithme EM, le modèle de régression OLS, l’algorithme NIPALS et une méthode de régression PLS., Comme méthodes d'imputation multiple nous avons adopté une méthode basée sur le modèle de régression OLS associé à des techniques bayesiennes; on a aussi proposé un nouveau modèle d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les structures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérarchique des méthodes classiques et probabilistes, ces dernières basées sur la famille de méthodes VL (Vraisemblance du Lien), comme méthodes de classification hiérarchique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) - qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalement sur des données simulées et complétée par des applications à des données réelles. Nous avons travaillé sur des données continues et binaires. Le coefficient de Spearman est utilisé pour comparer les structures hiérarchiques obtenues sur des matrices complètes avec les structures obtenues à partir des matrices ; où les données sont «effacées» puis imputées. L'indice de Rand est utilisé pour comparer les structures non hiérarchiques. Enfin, nous avons aussi proposé une méthode non hiérarchique qui «s'adapte» aux données manquantes. Sur un cas réel la méthode de Ward est utilisée dans les mêmes conditions que pour les simulations; mais aussi sans satisfaire un schéma monotone; une méthode de Monte Carlo par chaînes de Markov sert pour l'imputation multiple.
In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors: amount of missing data, imputation techniques, similarity coefficient and classification-criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As multiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarity matrices and an ordinal consensus. As hierarchical methods we used classical and. probabilistic approaches, the latter based on the VL-family. The hierarchical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data) - that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method.. The study was based mainly on simulated data, complemented by real ones. We used the Spearman.coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index.

Los estilos APA, Harvard, Vancouver, ISO, etc.

Marti, soler Helena. "Modélisation des données d'enquêtes cas-cohorte par imputation multiple : Application en épidémiologie cardio-vasculaire". Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00779739.

Texto completo

Resumen

Les estimateurs pondérés généralement utilisés pour analyser les enquêtes cas-cohorte ne sont pas pleinement efficaces. Or, les enquêtes cas-cohorte sont un cas particulier de données incomplètes où le processus d'observation est contrôlé par les organisateurs de l'étude. Ainsi, des méthodes d'analyse pour données manquant au hasard (MA) peuvent être pertinentes, en particulier, l'imputation multiple, qui utilise toute l'information disponible et permet d'approcher l'estimateur du maximum de vraisemblance partielle.Cette méthode est fondée sur la génération de plusieurs jeux plausibles de données complétées prenant en compte les différents niveaux d'incertitude sur les données manquantes. Elle permet d'adapter facilement n'importe quel outil statistique disponible pour les données de cohorte, par exemple, l'estimation de la capacité prédictive d'un modèle ou d'une variable additionnelle qui pose des problèmes spécifiques dans les enquêtes cas-cohorte. Nous avons montré que le modèle d'imputation doit être estimé à partir de tous les sujets complètement observés (cas et non-cas) en incluant l'indicatrice de statut parmi les variables explicatives. Nous avons validé cette approche à l'aide de plusieurs séries de simulations: 1) données complètement simulées, où nous connaissions les vraies valeurs des paramètres, 2) enquêtes cas-cohorte simulées à partir de la cohorte PRIME, où nous ne disposions pas d'une variable de phase-1 (observée sur tous les sujets) fortement prédictive de la variable de phase-2 (incomplètement observée), 3) enquêtes cas-cohorte simulées à partir de la cohorte NWTS, où une variable de phase-1 fortement prédictive de la variable de phase-2 était disponible. Ces simulations ont montré que l'imputation multiple fournissait généralement des estimateurs sans biais des risques relatifs. Pour les variables de phase-1, ils approchaient la précision obtenue par l'analyse de la cohorte complète, ils étaient légèrement plus précis que l'estimateur calibré de Breslow et coll. et surtout que les estimateurs pondérés classiques. Pour les variables de phase-2, l'estimateur de l'imputation multiple était généralement sans biais et d'une précision supérieure à celle des estimateurs pondérés classiques et analogue à celle de l'estimateur calibré. Les résultats des simulations réalisées à partir des données de la cohorte NWTS étaient cependant moins bons pour les effets impliquant la variable de phase-2 : les estimateurs de l'imputation multiple étaient légèrement biaisés et moins précis que les estimateurs pondérés. Cela s'explique par la présence de termes d'interaction impliquant la variable de phase-2 dans le modèle d'analyse, d'où la nécessité d'estimer des modèles d'imputation spécifiques à différentes strates de la cohorte incluant parfois trop peu de cas pour que les conditions asymptotiques soient réunies.Nous recommandons d'utiliser l'imputation multiple pour obtenir des estimations plus précises des risques relatifs, tout en s'assurant qu'elles sont analogues à celles fournies par les analyses pondérées. Nos simulations ont également montré que l'imputation multiple fournissait des estimations de la valeur prédictive d'un modèle (C de Harrell) ou d'une variable additionnelle (différence des indices C, NRI ou IDI) analogues à celles fournies par la cohorte complète

Los estilos APA, Harvard, Vancouver, ISO, etc.

Geronimi, Julia. "Contribution à la sélection de variables en présence de données longitudinales : application à des biomarqueurs issus d'imagerie médicale". Thesis, Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1114/document.

Texto completo

Resumen

Les études cliniques permettent de mesurer de nombreuses variables répétées dans le temps. Lorsque l'objectif est de les relier à un critère clinique d'intérêt, les méthodes de régularisation de type LASSO, généralisées aux Generalized Estimating Equations (GEE) permettent de sélectionner un sous-groupe de variables en tenant compte des corrélations intra-patients. Les bases de données présentent souvent des données non renseignées et des problèmes de mesures ce qui entraîne des données manquantes inévitables. L'objectif de ce travail de thèse est d'intégrer ces données manquantes pour la sélection de variables en présence de données longitudinales. Nous utilisons la méthode d'imputation multiple et proposons une fonction d'imputation pour le cas spécifique des variables soumises à un seuil de détection. Nous proposons une nouvelle méthode de sélection de variables pour données corrélées qui intègre les données manquantes : le Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Notre opérateur utilise la pénalité group-LASSO en considérant l'ensemble des coefficients de régression estimés d'une même variable sur les échantillons imputés comme un groupe. Notre méthode permet une sélection consistante sur l'ensemble des imputations, et minimise un critère de type BIC pour le choix du paramètre de régularisation. Nous présentons une application sur l'arthrose du genoux où notre objectif est de sélectionner le sous-groupe de biomarqueurs qui expliquent le mieux les différences de largeur de l'espace articulaire au cours du temps
Clinical studies enable us to measure many longitudinales variables. When our goal is to find a link between a response and some covariates, one can use regularisation methods, such as LASSO which have been extended to Generalized Estimating Equations (GEE). They allow us to select a subgroup of variables of interest taking into account intra-patient correlations. Databases often have unfilled data and measurement problems resulting in inevitable missing data. The objective of this thesis is to integrate missing data for variable selection in the presence of longitudinal data. We use mutiple imputation and introduce a new imputation function for the specific case of variables under detection limit. We provide a new variable selection method for correlated data that integrate missing data : the Multiple Imputation Penalized Generalized Estimating Equations (MI-PGEE). Our operator applies the group-LASSO penalty on the group of estimated regression coefficients of the same variable across multiply-imputed datasets. Our method provides a consistent selection across multiply-imputed datasets, where the optimal shrinkage parameter is chosen by minimizing a BIC-like criteria. We then present an application on knee osteoarthritis aiming to select the subset of biomarkers that best explain the differences in joint space width over time

Los estilos APA, Harvard, Vancouver, ISO, etc.

Mehanna, Souheir. "Data quality issues in mobile crowdsensing environments". Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG053.

Texto completo

Resumen

Les environnements de capteurs mobiles sont devenus le paradigme de référence pour exploiter les capacités de collecte des appareils mobiles et recueillir des données variées en conditions réelles. Pour autant, garantir la qualité des données recueillies reste une tâche complexe car les capteurs, souvent à bas coûts et ne fonctionnant pas toujours de façon optimale, peuvent être sujets à des dysfonctionnements, des erreurs, voire des pannes. Comme la qualité des données a un impact direct et significatif sur les résultats des analyses ultérieures, il est crucial de l'évaluer. Dans notre travail, nous nous intéressons à deux problématiques majeures liées à la qualité des données recueillies par les environnements de capteurs mobiles.Nous nous intéressons en premier à la complétude des données et nous proposons un ensemble de facteurs de qualité adapté à ce contexte, ainsi que des métriques permettant de les évaluer. En effet, les facteurs et métriques existants ne capturent pas l'ensemble des caractéristiques associées à la collecte de données par des capteurs. Afin d'améliorer la complétude des données, nous nous sommes intéressés au problème de génération des données manquantes. Les techniques actuelles d'imputation de données génèrent les données manquantes en se reposant sur les données existantes, c'est à dire les mesures déjà réalisées par les capteurs, sans tenir compte de la qualité de ces données qui peut être très variable. Nous proposons donc une approche qui étend les techniques existantes pour permettre la prise en compte de la qualité des données pendant l'imputation. La deuxième partie de nos travaux est consacrée à la détection d'anomalies dans les données de capteurs. Tout comme pour l'imputation de données, les techniques permettant de détecter des anomalies utilisent des métriques sur les données mais ignorent la qualité des ces dernières. Pour améliorer la détection, nous proposons une approche fondés sur des algorithmes de clustering qui intègrent la qualité des capteurs dans le processus de détection des anomalies.Enfin, nous nous sommes intéressés à la façon dont la qualité des données pourrait être prise en compte lors de l'analyse de données issues de capteurs. Nous proposons deux contributions préliminaires: des opérateurs d'agrégation qui considère la qualité des mesures, et une approche pour évaluer la qualité d'un agrégat en fonction des données utilisées dans son calcul
Mobile crowdsensing has emerged as a powerful paradigm for harnessing the collective sensing capabilities of mobile devices to gather diverse data in real-world settings. However, ensuring the quality of the collected data in mobile crowdsensing environments (MCS) remains a challenge because low-cost nomadic sensors can be prone to malfunctions, faults, and points of failure. The quality of the collected data can significantly impact the results of the subsequent analyses. Therefore, monitoring the quality of sensor data is crucial for effective analytics.In this thesis, we have addressed some of the issues related to data quality in mobile crowdsensing environments. First, we have explored issues related to data completeness. The mobile crowdsensing context has specific characteristics that are not all captured by the existing factors and metrics. We have proposed a set of quality factors of data completeness suitable for mobile crowdsensing environments. We have also proposed a set of metrics to evaluate each of these factors. In order to improve data completeness, we have tackled the problem of generating missing values.Existing data imputation techniques generate missing values by relying on existing measurements without considering the disparate quality levels of these measurements. We propose a quality-aware data imputation approach that extends existing data imputation techniques by taking into account the quality of the measurements.In the second part of our work, we have focused on anomaly detection, which is another major problem that sensor data face. Existing anomaly detection approaches use available data measurements to detect anomalies, and are oblivious of the quality of the measurements. In order to improve the detection of anomalies, we propose an approach relying on clustering algorithms that detects pattern anomalies while integrating the quality of the sensor into the algorithm.Finally, we have studied the way data quality could be taken into account for analyzing sensor data. We have proposed some contributions which are the first step towards quality-aware sensor data analytics, which consist of quality-aware aggregation operators, and an approach that evaluates the quality of a given aggregate considering the data used in its computation

Los estilos APA, Harvard, Vancouver, ISO, etc.

Más fuentes

Libros sobre el tema "Imputation de données manquantes"

Raghunathan, Trivellore, Patricia A. Berglund y Peter W. Solenberger. Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Raghunathan, Trivellore, Patricia A. Berglund y Peter W. Solenberger. Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Raghunathan, Trivellore, Patricia A. Berglund y Peter W. Solenberger. Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Buuren, Stef van. Flexible Imputation of Missing Data Second Edition. Taylor & Francis Group, 2021.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Buuren, Stef van. Flexible Imputation of Missing Data. Taylor & Francis Group, 2012.

Buscar texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Más fuentes

Capítulos de libros sobre el tema "Imputation de données manquantes"

"Le traitement des données manquantes (Missing data)". En La modélisation par équations structurelles avec Mplus, 55–66. Presses de l'Université du Québec, 2018. http://dx.doi.org/10.2307/j.ctvt1sh9g.11.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

"Le traitement des données manquantes (Missing data)". En La modélisation par équations structurelles avec Mplus, 55–66. Presses de l'Université du Québec, 2018. http://dx.doi.org/10.1515/9782760549739-009.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!