Добірка наукової літератури з теми "Imputation de Valeurs manquantes"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Imputation de Valeurs manquantes".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Статті в журналах з теми "Imputation de Valeurs manquantes":

1

Trempe, Normand, Marie-Claude Boivin, Ernest Lo, and Amadou Diogo Barry. "L’utilisation de la variable sur la langue d’usage à la maison du Registre des décès du Québec." Notes de recherche 43, no. 1 (June 4, 2014): 163–80. http://dx.doi.org/10.7202/1025494ar.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La mortalité est une des mesures de la santé globale de la population les plus utilisées et on peut y intégrer une composante linguistique et culturelle en utilisant la langue d’usage à la maison qui est inscrite au Registre des décès du Québec. Nous avons exploré les fichiers des décès du Québec de 1990 à 2007 afin de mesurer les proportions d’absence de réponse selon différentes variables comme la région sociosanitaire, l’établissement ou le type de déclarant. Nous concluons à la suite de cette étude exploratoire que l’information est suffisamment exacte pour donner un portrait réaliste de la mortalité par groupes linguistiques. Nous recommandons de faire une imputation pour les valeurs manquantes et nous proposons certaines améliorations à l’enregistrement de la variable linguistique au Registre des décès du Québec.
2

Basham, C. Andrew. "Variations régionales de prévalence de la multimorbidité en Colombie-Britannique (Canada) : analyse transversale des données de l’Enquête sur la santé dans les collectivités canadiennes de 2015-2016." Promotion de la santé et prévention des maladies chroniques au Canada 40, no. 7/8 (July 2020): 251–61. http://dx.doi.org/10.24095/hpcdp.40.7/8.02f.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Introduction La multimorbidité constitue une préoccupation majeure pour les planificateurs de la santé de la population et de la prestation de services. Il est important de disposer de données sur la prévalence (en chiffres absolus et en proportions) de la multimorbidité au sein des populations régionales bénéficiant des services de santé afin de planifier les soins liés à la multimorbidité. Au Canada, il n’existe pas de publication systématique des estimations de prévalence de la multimorbidité par région sanitaire. L’Enquête sur la santé dans les collectivités canadiennes (ESCC) offre une source de données utile pour effectuer ces estimations. Méthodologie Nous avons utilisé les données du cycle 2015-2016 de l’ESCC portant sur la Colombie­Britannique (C.­B.) pour estimer et comparer la prévalence de la multimorbidité (trois maladies chroniques ou plus) au moyen d’analyses pondérées. Nous avons calculé les fréquences et les proportions brutes de la multimorbidité en fonction de la zone de prestation de services de santé (ZPSS) de la C.­B. Nous avons eu recours à une régression logistique pour estimer les variations de prévalence de la multimorbidité par ZPSS, avec ajustement pour divers facteurs de confusion connus. Nous avons réalisé, en guise d’analyse de sensibilité, une imputation multiple au moyen d’équations en chaîne pour les valeurs des covariables manquantes. Nous avons également modifié la définition de la multimorbidité pour réaliser une analyse de sensibilité supplémentaire. Résultats On estime à 681 921 le nombre total de personnes atteintes de multimorbidité en C.-B. (16,9 % de la population) en 2015-2016. La prévalence de la multimorbidité à Vancouver (rapport de cotes corrigé = 0,65; IC à 95 % : 0,44 à 0,97) et à Richmond (rapport de cotes corrigé = 0,55; IC à 95 % : 0,37 à 0,82) s’est révélée beaucoup plus faible qu’à Fraser Sud (ZPSS de référence). Les résultats de l’analyse des données manquantes et de l’analyse de sensibilité étaient compatibles avec ceux de l’analyse principale. Conclusion Les estimations de prévalence de la multimorbidité varient en fonction des régions sanitaires de la C.­B., les estimations les plus faibles ayant été observées à Vancouver et à Richmond, après ajustement pour divers facteurs de confusion potentiels. Il est nécessaire d’élaborer des politiques et d’établir les priorités en matière de soins liés à la multimorbidité à l’échelle provinciale et régionale. Dans ce contexte, l’ESCC constitue une source d’information précieuse pour les analyses régionales de multimorbidité au Canada.
3

Montreuil, Sylvie, Richard Halley, and Shirley Joe. "Poids à la naissance et durée de gestation manquants? La solution dans le jumelage des fichiers des naissances et des hospitalisations." Notes de recherche 25, no. 2 (March 25, 2004): 261–78. http://dx.doi.org/10.7202/010212ar.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
RÉSUMÉ Au Québec, le nombre élevé de données manquantes pour le poids à la naissance et la durée de gestation dans le fichier des naissances engendrait des problèmes dans le calcul de certains indicateurs de santé. Or ces données sont présentes dans le fichier des hospitalisations. Le jumelage des deux fichiers permet de trouver le dossier se rapportant au même individu dans chaque fichier, de compléter les données manquantes et d'améliorer la qualité du fichier des naissances. Le jumelage s'est révélé un succès puisqu'il a permis de diminuer la proportion des valeurs manquantes dans le fichier des naissances à 0,1 % pour le poids à la naissance et à 0,2% pour la durée de gestation en 1993, comparativement à 1,1 % et 3,2% respectivement en 1992. Le même travail a été fait pour le fichier des mortinaissances, avec un résultat encore plus spectaculaire : les pourcentages de valeurs manquantes sont alors passés de 10,4% et 7,7 % respectivement en 1992 à 0,3 % dans les deux cas en 1993.
4

Ben Othman, Leila, François Rioult, Sadok Ben Yahia, and Bruno Crémilleux. "Base de caractérisation des valeurs manquantes." Techniques et sciences informatiques 30, no. 10 (December 28, 2011): 1247–70. http://dx.doi.org/10.3166/tsi.30.1247-1270.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Galimard, J. E., S. Chevret, and M. Resche-Rigon. "Imputation multiple en présence de données manquantes MNAR." Revue d'Épidémiologie et de Santé Publique 63 (May 2015): S42. http://dx.doi.org/10.1016/j.respe.2015.03.014.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Rossel, F., and J. Garbrecht. "Analyse et amélioration d'un indice pluviométrique mensuel régional pour les grandes plaines du sud des États-Unis." Revue des sciences de l'eau 13, no. 1 (April 12, 2005): 39–46. http://dx.doi.org/10.7202/705379ar.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'indice pluviométrique mensuel proposé par le National Climatic Data Center (NCDC) est égal à la moyenne arithmétique des précipitations observées à certaines stations de la division climatique. Les différents problèmes d'homogénéité des données prises en compte par le NCDC pour le calcul de l'indice sont quantifiés pour la région climatique centrale de l'Oklahoma. Une amélioration de la méthode de calcul est proposée. Le calcul de ce nouvel indice utilise un nombre fixe de stations et fait appel à une méthode d'estimation des données manquantes. L'estimation des valeurs manquantes permet de disposer d'un jeu de données complet, ce qui augmente la représentativité de l'indice. Les moyennes mensuelles des valeurs absolues des différences entre l'indice NCDC et l'indice proposé sont comprises entre 6 % (mai) et 13 % (août) des précipitations moyennes et entre 9 % (novembre) et 24 % (août) des écart-types mensuels. Ces valeurs démontrent que les problèmes liés à la méthode de calcul d'un indice pluviométrique mensuel régional utilisée par le NCDC peuvent être importants. Les résultats de recherches sur la variabilité temporelle des précipitations utilisant un indice pluviométrique régional devraient être interprétés en connaissance de ces différences.
7

Aurélien, Njamen Kengdo Arsène, and Kwatcho Kengdo Steve. "Gestion Des Donnees Manquantes Dans Les Bases De Donnees En Sciences Sociales : Algorithme Nipals Ou Imputation Multiple?" European Scientific Journal, ESJ 12, no. 35 (December 31, 2016): 390. http://dx.doi.org/10.19044/esj.2016.v12n35p390.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
The main objective of this paper is to assess the robustness of imputation methods to fill up the series of secondary data in social sciences. The methodology used, especially that of mean imputation, multiple imputation and NIPALS algorithm, is based on a simulation using observed data. Results show a close similarity between the observed data and the data obtained by multiple imputation, mean imputation and NIPALS algorithm. The results also suggest that multiple imputation provides values substantially similar to observed data.
8

Doggett, Amanda, Ashok Chaurasia, Jean-Philippe Chaput, and Scott T. Leatherdale. "Utilisation des arbres de classification et de régression pour modéliser les données manquantes sur l’IMC, la taille et la masse corporelle chez les jeunes." Promotion de la santé et prévention des maladies chroniques au Canada 43, no. 5 (May 2023): 257–69. http://dx.doi.org/10.24095/hpcdp.43.5.03f.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Introduction Les données issues de mesures de l’indice de masse corporelle (IMC) autodéclarées par les jeunes comportent souvent de graves lacunes, ce qui peut avoir un effet important sur les résultats des recherches les utilisant. La première étape du traitementdes données manquantes consiste à étudier leur niveau et leur structuration. Or les études antérieures qui ont analysé les données manquantes sur l’IMC chez les jeunes ont utilisé une régression logistique, une approche limitée dans sa capacité à discerner des sous-groupes ou à obtenir une hiérarchie dans l’importance des variables, des dimensions pourtant susceptibles de contribuer grandement à la compréhension de la structuration des données manquantes. Methods Cette étude a utilisé des modèles d’arbre de classification et de régression (CART, pour classification and regression tree) stratifiés selon le sexe pour analyser les données manquantes sur la taille, la masse corporelle et l’IMC chez 74 501 jeunes participant à l’étude COMPASS 2018-2019 (une étude de cohorte prospective qui a porté sur les comportements de santé des jeunes canadiens), dans laquelle 31 % des données sur l’IMC étaient manquantes. Des variables telles que le régime alimentaire, le mouvement, les résultats scolaires, la santé mentale et l’utilisation de substances ont été étudiées afin de vérifier leurs associations avec les données manquantes sur la taille, la masse corporelle et l’IMC. Results D’après les modèles CART, le fait d’être à la fois plus jeune, de se sentir en surpoids, d’être moins actif physiquement et d’avoir une santé mentale moins bonne a produit des sous-groupes de filles et de garçons où il était très probable que des valeurs d’IMC soient manquantes. Les données manquantes sur l’IMC étaient moins probables chez les répondants de l’enquête plus âgés et ne se sentant pas en surpoids. Conclusion Si l’on se fie aux sous-groupes produits par les modèles CART, utiliser un échantillon au sein duquel les cas dont la valeur de l’IMC est manquante ont été supprimés conduirait à tenir davantage compte des jeunes en meilleure santé sur les plans physique, émotionnel et mental. Étant donné que les modèles CART sont aptes à discerner ces sous-groupes ainsi qu’à établir une hiérarchie dans l’importance des variables, ils constituent un outil précieux pour étudier la structuration des données manquantes et la manière appropriée de gérer ces dernières.
9

Badisy, I. El, C. Nejjari, A. Naim, K. El Rhaz, M. Khalis, and R. Giorgi. "CO10.6 - Imputation des données manquantes par un méta-algorithme (metaCART): étude de simulation." Revue d'Épidémiologie et de Santé Publique 71 (May 2023): 101632. http://dx.doi.org/10.1016/j.respe.2023.101632.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
10

Soullier, N., E. de la Rochebrochard, and J. Bouyer. "Imputation multiple et répartition des données manquantes dans les cohortes : exemple de la fécondation in vitro." Revue d'Épidémiologie et de Santé Publique 56, no. 5 (September 2008): 276. http://dx.doi.org/10.1016/j.respe.2008.06.077.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.

Дисертації з теми "Imputation de Valeurs manquantes":

1

Bernard, Francis. "Méthodes d'analyse des données incomplètes incorporant l'incertitude attribuable aux valeurs manquantes." Mémoire, Université de Sherbrooke, 2013. http://hdl.handle.net/11143/6571.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Lorsqu'on réalise une analyse des données dans le cadre d'une enquête, on est souvent confronté au problème des données manquantes. L'une des solutions les plus fréquemment utilisées est d'avoir recours aux méthodes d'imputation simple. Malheureusement, ces méthodes souffrnt d'un handicap important : les estimations courantes basées sur les valeurs observées et imputées considèrent à tort les valeurs imputées comme des valeurs connues, bien qu'une certaine forme d'incertitude plane au sujet des valeurs à imputer. En particulier, les intervalles de confiance pour les paramètres d'intérêt basés sur les données ainsi complétées n'incorporent pas l'incertitude qui est attribuable aux valeurs manquantes. Les méthodes basées sur le rééchantillonnage et l'imputation multiple -- une généralisation de l'imputation simple -- s'avèrent toutes deux des solutions courantes convenables au problème des données manquantes, du fait qu'elles incorporent cette incertitude. Une alternative consiste à avoir recours à l'imputation multiple à deux niveaux, une généralisation de l'imputation multiple (conventionnelle) qui a été développée dans la thèse que Shen [51] a rédigée en 2000 et qui permet d'exploiter les situations où la nature des valeurs manquantes suggère d'effectuer la procédure d'imputation en deux étapes plutôt qu'en une seule. Nous décrirons ces méthodes d'analyse des données incomplètes qui incorporent l'incertitude attribuable aux valeurs manquantes, nous soulèverons quelques problématiques intéressantes relatives au recours à ces méthodes et nous y proposerons des solutions appropriées. Finalement, nous illustrerons l'application de l'imputation multiple conventionnelle et de l'imputation multiple à deux niveaux au moyen d'exemples simples et concrets.
2

Etourneau, Lucas. "Contrôle du FDR et imputation de valeurs manquantes pour l'analyse de données de protéomiques par spectrométrie de masse." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALS001.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La protéomique consiste en la caractérisation du protéome d’un échantillon biologique, c’est-à-dire l’ensemble des protéines qu’il contient, et ce de la manière la plus exhaustive possible. Par l’identification et la quantification de fragments de protéines analysables en spectrométrie de masse (appelés peptides), la protéomique donne accès au niveau d’expression des gènes à un instant donné, ce qui est une information capitale pour améliorer la compréhension des mécanismes moléculaires en jeu au sein du vivant. Ces expériences produisent de grandes quantités de données, souvent complexes à interpréter et sujettes à certains biais. Elles requièrent des méthodes de traitement fiables et qui assurent un certain contrôle qualité, afin de garantir la pertinence des conclusions biologiques qui en résultent.Les travaux de cette thèse portent sur l'amélioration de ces traitements de données, et plus particulièrement sur les deux points majeurs suivants:Le premier est le contrôle du taux de fausses découvertes (abrégé en FDR pour “False Discovery Rate”), durant les étapes d’identification (1) des peptides, et (2) de biomarqueurs quantitativement différentiels entre une condition biologique testée et son contrôle négatif. Nos contributions portent sur l'établissement de liens entre les méthodes empiriques propres à la protéomique, et d’autres méthodes théoriquement bien établies. Cela nous permet notamment de donner des directions à suivre pour l’amélioration des méthodes de contrôle du FDR lors de l'identification de peptides.Le second point porte sur la gestion des valeurs manquantes, souvent nombreuses et de nature complexe, les rendant impossible à ignorer. En particulier, nous avons développé un nouvel algorithme d’imputation de valeurs manquantes qui tire parti des spécificités des données de protéomique. Notre algorithme a été testé et comparé à d’autres méthodes sur plusieurs jeux de données et selon des métriques variées, et obtient globalement les meilleures performances. De plus, il s’agit du premier algorithme permettant d’imputer en suivant le paradigme en vogue de la “multi-omique”: il peut en effet s’appuyer, lorsque cela est pertinent, sur des informations de type transcriptomique, qui quantifie le niveau d’expression des ARN messagers présents dans l’échantillon, pour imputer de manière plus fiable. Finalement, Pirat est implémenté dans un paquet logiciel disponible gratuitement, ce qui rend facilement utilisable pour la communauté protéomique
Proteomics involves characterizing the proteome of a biological sample, that is, the set of proteins it contains, and doing so as exhaustively as possible. By identifying and quantifying protein fragments that are analyzable by mass spectrometry (known as peptides), proteomics provides access to the level of gene expression at a given moment. This is crucial information for improving the understanding of molecular mechanisms at play within living organisms. These experiments produce large amounts of data, often complex to interpret and subject to various biases. They require reliable data processing methods that ensure a certain level of quality control, as to guarantee the relevance of the resulting biological conclusions.The work of this thesis focuses on improving this data processing, and specifically on the following two major points:The first is controlling for the false discovery rate (FDR), when either identifying (1) peptides or (2) quantitatively differential biomarkers between a tested biological condition and its negative control. Our contributions focus on establishing links between the empirical methods stemmed for proteomic practice and other theoretically supported methods. This notably allows us to provide directions for the improvement of FDR control methods used for peptide identification.The second point focuses on managing missing values, which are often numerous and complex in nature, making them impossible to ignore. Specifically, we have developed a new algorithm for imputing them that leverages the specificities of proteomics data. Our algorithm has been tested and compared to other methods on multiple datasets and according to various metrics, and it generally achieves the best performance. Moreover, it is the first algorithm that allows imputation following the trending paradigm of "multi-omics": if it is relevant to the experiment, it can impute more reliably by relying on transcriptomic information, which quantifies the level of messenger RNA expression present in the sample. Finally, Pirat is implemented in a freely available software package, making it easy to use for the proteomic community
3

Morisot, Adeline. "Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application aux décès par cancer de la prostate." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTT010/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le terme analyse de survie fait référence aux méthodes utilisées pour modéliser le temps d'apparition d'un ou plusieurs événements en tenant compte de la censure. L'événement d’intérêt peut être l'apparition, la récidive d'une maladie, ou le décès. Les causes de décès peuvent présenter des valeurs absentes, une situation qui peut être modélisée par des méthodes d’imputation. Dans la première partie de cette thèse nous avons passer en revue les méthodes de gestion des données manquantes. Puis nous avons détaillé les procédures qui permettent une imputation multiple des causes de décès. Nous avons développé ces méthodes dans une cohorte issue d’une étude européenne, l’ERSPC (European Randomized Study of Screening for Prostate Cancer), qui étudiait le dépistage et la mortalité par cancer de la prostate. Nous avons proposé une formulation théorique des règles de Rubin après transformation log-log complémentaire afin de combiner les estimations de survie. De plus, nous mettons à disposition le code R afférent. Dans la deuxième partie, nous présentons les méthodes d'analyse de survie, en proposant une écriture unifiée basée sur les définitions des survies brute et nette, que l’on s'intéresse à toutes les causes de décès ou à une seule cause. Cela implique la prise en compte de la censure qui peut alors être informative. Nous avons considéré les méthodes dites classiques (Kaplan-Meier, Nelson-Aalen, Cox et paramétriques), les méthodes des risques compétitifs (en considérant un modèle multi-états ou un modèle de temps latents), les méthodes dites spécifiques avec correction IPCW (Inverse Ponderation Censoring Weighting) et les méthodes de survie relative. Les méthodes dites classiques reposent sur l'hypothèse de censure non informative. Quand on s'intéresse aux décès de toutes causes, cette hypothèse est souvent valide. En revanche, pour un décès de cause particulière, les décès d'autres causes sont considérés comme une censure, et cette censure par décès d'autres causes est en général informative. Nous introduisons une approche basée sur la méthode IPCW afin de corriger cette censure informative, et nous fournissons une fonction R qui permet d’appliquer cette approche directement. Toutes les méthodes présentées dans ce chapitre sont appliquées aux bases de données complétées par imputation multiple.Enfin, dans une dernière partie nous avons cherché à déterminer le pourcentage de décès expliqué par une ou plusieurs variables en utilisant les fractions attribuables. Nous présentons les formulations théoriques des fractions attribuables, indépendantes du temps puis dépendantes du temps qui s’expriment sous la forme de survie. Nous illustrons ces concepts en utilisant toutes les méthodes de survie de la partie précédente et comparons les résultats. Les estimations obtenues avec les différentes méthodes sont très proches
The term survival analysis refers to methods used for modeling the time of occurrence of one or more events taking censoring into account. The event of interest may be either the onset or the recurrence of a disease, or death. The causes of death may have missing values, a status that may be modeled by imputation methods. In the first section of this thesis we made a review of the methods used to deal with these missing data. Then, we detailed the procedures that enable multiple imputation of causes of death. We have developed these methods in a subset of the ERSPC (European Randomized Study of Screening for Prostate Cancer), which studied screening and mortality for prostate cancer. We proposed a theoretical formulation of Rubin rules after a complementary log-log transformation to combine estimates of survival. In addition, we provided the related R code. In a second section, we presented the survival analysis methods, by proposing a unified writing based on the definitions of crude and net survival, while considering either all-cause or specific cause of death. This involves consideration of censoring which can then be informative. We considered the so-called traditional methods (Kaplan-Meier, Nelson-Aalen, Cox and parametric) methods of competing risks (considering a multistate model or a latent failure time model), methods called specific that are corrected using IPCW (Inverse Ponderation Censoring Weighting) and relative survival methods. The classical methods are based on a non-informative censoring assumption. When we are interested in deaths from all causes, this assumption is often valid. However, for a particular cause of death, other causes of death are considered as a censoring. In this case, censoring by other causes of death is generally considered informative. We introduced an approach based on the IPCW method to correct this informative censoring, and we provided an R function to apply this approach directly. All methods presented in this chapter were applied to datasets completed by multiple imputation. Finally, in a last part we sought to determine the percentage of deaths explained by one or more variables using attributable fractions. We presented the theoretical formulations of attributable fractions, time-independent and time-dependent that are expressed as survival. We illustrated these concepts using all the survival methods presented in section 2, and compared the results. Estimates obtained with the different methods were very similar
4

Chion, Marie. "Développement de nouvelles méthodologies statistiques pour l'analyse de données de protéomique quantitative." Thesis, Strasbourg, 2021. http://www.theses.fr/2021STRAD025.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L’analyse protéomique consiste à étudier l’ensemble des protéines exprimées par un système biologique donné, à un moment donné et dans des conditions données. Les récents progrès technologiques en spectrométrie de masse et en chromatographie liquide permettent d’envisager aujourd’hui des études protéomiques à large échelle et à haut débit. Ce travail de thèse porte sur le développement de méthodologies statistiques pour l’analyse des données de protéomique quantitative et présente ainsi trois principales contributions. La première partie propose d’utiliser des modèles de régression par spline monotone pour estimer les quantités de tous les peptides détectés dans un échantillon grâce à l'utilisation de standards internes marqués pour un sous-ensemble de peptides ciblés. La deuxième partie présente une stratégie de prise en compte de l’incertitude induite par le processus d’imputation multiple dans l’analyse différentielle, également implémentée dans le package R mi4p. Enfin, la troisième partie propose un cadre bayésien pour l’analyse différentielle, permettant notamment de tenir compte des corrélations entre les intensités des peptides
Proteomic analysis consists of studying all the proteins expressed by a given biological system, at a given time and under given conditions. Recent technological advances in mass spectrometry and liquid chromatography make it possible to envisage large-scale and high-throughput proteomic studies.This thesis work focuses on developing statistical methodologies for the analysis of quantitative proteomics data and thus presents three main contributions. The first part proposes to use monotone spline regression models to estimate the amounts of all peptides detected in a sample using internal standards labelled for a subset of targeted peptides. The second part presents a strategy to account for the uncertainty induced by the multiple imputation process in the differential analysis, also implemented in the mi4p R package. Finally, the third part proposes a Bayesian framework for differential analysis, making it notably possible to consider the correlations between the intensities of peptides
5

Moreno, Betancur Margarita. "Regression modeling with missing outcomes : competing risks and longitudinal data." Thesis, Paris 11, 2013. http://www.theses.fr/2013PA11T076/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les données manquantes sont fréquentes dans les études médicales. Dans les modèles de régression, les réponses manquantes limitent notre capacité à faire des inférences sur les effets des covariables décrivant la distribution de la totalité des réponses prévues sur laquelle porte l'intérêt médical. Outre la perte de précision, toute inférence statistique requière qu'une hypothèse sur le mécanisme de manquement soit vérifiée. Rubin (1976, Biometrika, 63:581-592) a appelé le mécanisme de manquement MAR (pour les sigles en anglais de « manquant au hasard ») si la probabilité qu'une réponse soit manquante ne dépend pas des réponses manquantes conditionnellement aux données observées, et MNAR (pour les sigles en anglais de « manquant non au hasard ») autrement. Cette distinction a des implications importantes pour la modélisation, mais en général il n'est pas possible de déterminer si le mécanisme de manquement est MAR ou MNAR à partir des données disponibles. Par conséquent, il est indispensable d'effectuer des analyses de sensibilité pour évaluer la robustesse des inférences aux hypothèses de manquement.Pour les données multivariées incomplètes, c'est-à-dire, lorsque l'intérêt porte sur un vecteur de réponses dont certaines composantes peuvent être manquantes, plusieurs méthodes de modélisation sous l'hypothèse MAR et, dans une moindre mesure, sous l'hypothèse MNAR ont été proposées. En revanche, le développement de méthodes pour effectuer des analyses de sensibilité est un domaine actif de recherche. Le premier objectif de cette thèse était de développer une méthode d'analyse de sensibilité pour les données longitudinales continues avec des sorties d'étude, c'est-à-dire, pour les réponses continues, ordonnées dans le temps, qui sont complètement observées pour chaque individu jusqu'à la fin de l'étude ou jusqu'à ce qu'il sorte définitivement de l'étude. Dans l'approche proposée, on évalue les inférences obtenues à partir d'une famille de modèles MNAR dits « de mélange de profils », indexés par un paramètre qui quantifie le départ par rapport à l'hypothèse MAR. La méthode a été motivée par un essai clinique étudiant un traitement pour le trouble du maintien du sommeil, durant lequel 22% des individus sont sortis de l'étude avant la fin.Le second objectif était de développer des méthodes pour la modélisation de risques concurrents avec des causes d'évènement manquantes en s'appuyant sur la théorie existante pour les données multivariées incomplètes. Les risques concurrents apparaissent comme une extension du modèle standard de l'analyse de survie où l'on distingue le type d'évènement ou la cause l'ayant entrainé. Les méthodes pour modéliser le risque cause-spécifique et la fonction d'incidence cumulée supposent en général que la cause d'évènement est connue pour tous les individus, ce qui n'est pas toujours le cas. Certains auteurs ont proposé des méthodes de régression gérant les causes manquantes sous l'hypothèse MAR, notamment pour la modélisation semi-paramétrique du risque. Mais d'autres modèles n'ont pas été considérés, de même que la modélisation sous MNAR et les analyses de sensibilité. Nous proposons des estimateurs pondérés et une approche par imputation multiple pour la modélisation semi-paramétrique de l'incidence cumulée sous l'hypothèse MAR. En outre, nous étudions une approche par maximum de vraisemblance pour la modélisation paramétrique du risque et de l'incidence sous MAR. Enfin, nous considérons des modèles de mélange de profils dans le contexte des analyses de sensibilité. Un essai clinique étudiant un traitement pour le cancer du sein de stade II avec 23% des causes de décès manquantes sert à illustrer les méthodes proposées
Missing data are a common occurrence in medical studies. In regression modeling, missing outcomes limit our capability to draw inferences about the covariate effects of medical interest, which are those describing the distribution of the entire set of planned outcomes. In addition to losing precision, the validity of any method used to draw inferences from the observed data will require that some assumption about the mechanism leading to missing outcomes holds. Rubin (1976, Biometrika, 63:581-592) called the missingness mechanism MAR (for “missing at random”) if the probability of an outcome being missing does not depend on missing outcomes when conditioning on the observed data, and MNAR (for “missing not at random”) otherwise. This distinction has important implications regarding the modeling requirements to draw valid inferences from the available data, but generally it is not possible to assess from these data whether the missingness mechanism is MAR or MNAR. Hence, sensitivity analyses should be routinely performed to assess the robustness of inferences to assumptions about the missingness mechanism. In the field of incomplete multivariate data, in which the outcomes are gathered in a vector for which some components may be missing, MAR methods are widely available and increasingly used, and several MNAR modeling strategies have also been proposed. On the other hand, although some sensitivity analysis methodology has been developed, this is still an active area of research. The first aim of this dissertation was to develop a sensitivity analysis approach for continuous longitudinal data with drop-outs, that is, continuous outcomes that are ordered in time and completely observed for each individual up to a certain time-point, at which the individual drops-out so that all the subsequent outcomes are missing. The proposed approach consists in assessing the inferences obtained across a family of MNAR pattern-mixture models indexed by a so-called sensitivity parameter that quantifies the departure from MAR. The approach was prompted by a randomized clinical trial investigating the benefits of a treatment for sleep-maintenance insomnia, from which 22% of the individuals had dropped-out before the study end. The second aim was to build on the existing theory for incomplete multivariate data to develop methods for competing risks data with missing causes of failure. The competing risks model is an extension of the standard survival analysis model in which failures from different causes are distinguished. Strategies for modeling competing risks functionals, such as the cause-specific hazards (CSH) and the cumulative incidence function (CIF), generally assume that the cause of failure is known for all patients, but this is not always the case. Some methods for regression with missing causes under the MAR assumption have already been proposed, especially for semi-parametric modeling of the CSH. But other useful models have received little attention, and MNAR modeling and sensitivity analysis approaches have never been considered in this setting. We propose a general framework for semi-parametric regression modeling of the CIF under MAR using inverse probability weighting and multiple imputation ideas. Also under MAR, we propose a direct likelihood approach for parametric regression modeling of the CSH and the CIF. Furthermore, we consider MNAR pattern-mixture models in the context of sensitivity analyses. In the competing risks literature, a starting point for methodological developments for handling missing causes was a stage II breast cancer randomized clinical trial in which 23% of the deceased women had missing cause of death. We use these data to illustrate the practical value of the proposed approaches
6

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Montpellier 2, 2007. http://www.theses.fr/2007MON20056.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
7

Fiot, Céline. "Extraction de séquences fréquentes : des données numériques aux valeurs manquantes." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00179506.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La quantité de données aujourd'hui emmagasinées dans tous les domaines ainsi que leur diversité d'origines et de formats rendent impossibles l'analyse, le résumé ou l'extraction manuelle de connaissances. Pour répondre à ces besoins, diverses communautés se sont intéressées à la conception et au développement d'outils permettant d'extraire automatiquement de la connaissance de ces grandes bases. Désormais ces travaux visent à prendre en compte l'hétérogénéité de ces données, de leur format et de leur qualité. Notre travail s'inscrit dans cet axe de recherche et, plus précisément, dans le contexte de la découverte de schémas fréquents à partir de données regroupées sous la forme de séquences ordonnées. Ces schémas, appelés motifs séquentiels, n'étaient jusqu'alors extraits que sur des bases de données de séquences symboliques et parfaites, c'est-à-dire des bases ne contenant que des informations binaires ou pouvant être traitées comme telles et ne contenant aucun enregistrement incomplet. Nous avons donc proposé plusieurs améliorations des techniques d'extraction de séquences fréquentes afin de prendre en compte des données hétérogènes, incomplètes, incertaines ou mal connues de leur utilisateur, tout en minimisant les pertes éventuelles d'informations. Ainsi, le travail présenté dans cette thèse comporte la mise en oeuvre d'un cadre pour l'extraction de motifs séquentiels en présence de données numériques quantitatives, la définition de contraintes temporelles relâchées autorisant l'utilisateur à spécifier des contraintes temporelles approximatives et permettant un tri des résultats obtenus selon un indice de précision temporelle, enfin, le développement de deux approches pour l'extraction de motifs séquentiels sur des données symboliques incomplètes.
8

Audigier, Vincent. "Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les données manquantes." Thesis, Rennes, Agrocampus Ouest, 2015. http://www.theses.fr/2015NSARG015/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse est centrée sur le développement de nouvelles méthodes d'imputation multiples, basées sur des techniques d'analyse factorielle. L'étude des méthodes factorielles, ici en tant que méthodes d'imputation, offre de grandes perspectives en termes de diversité du type de données imputées d'une part, et en termes de dimensions de jeux de données imputés d'autre part. Leur propriété de réduction de la dimension limite en effet le nombre de paramètres estimés.Dans un premier temps, une méthode d'imputation simple par analyse factorielle de données mixtes est détaillée. Ses propriétés sont étudiées, en particulier sa capacité à gérer la diversité des liaisons mises en jeu et à prendre en compte les modalités rares. Sa qualité de prédiction est éprouvée en la comparant à l'imputation par forêts aléatoires.Ensuite, une méthode d'imputation multiple pour des données quantitatives basée sur une approche Bayésienne du modèle d'analyse en composantes principales est proposée. Elle permet d'inférer en présence de données manquantes y compris quand le nombre d'individus est petit devant le nombre de variables, ou quand les corrélations entre variables sont fortes.Enfin, une méthode d'imputation multiple pour des données qualitatives par analyse des correspondances multiples (ACM) est proposée. La variabilité de prédiction des données manquantes est reflétée via un bootstrap non-paramétrique. L'imputation multiple par ACM offre une réponse au problème de l'explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élev
This thesis proposes new multiple imputation methods that are based on principal component methods, which were initially used for exploratory analysis and visualisation of continuous, categorical and mixed multidimensional data. The study of principal component methods for imputation, never previously attempted, offers the possibility to deal with many types and sizes of data. This is because the number of estimated parameters is limited due to dimensionality reduction.First, we describe a single imputation method based on factor analysis of mixed data. We study its properties and focus on its ability to handle complex relationships between variables, as well as infrequent categories. Its high prediction quality is highlighted with respect to the state-of-the-art single imputation method based on random forests.Next, a multiple imputation method for continuous data using principal component analysis (PCA) is presented. This is based on a Bayesian treatment of the PCA model. Unlike standard methods based on Gaussian models, it can still be used when the number of variables is larger than the number of individuals and when correlations between variables are strong.Finally, a multiple imputation method for categorical data using multiple correspondence analysis (MCA) is proposed. The variability of prediction of missing values is introduced via a non-parametric bootstrap approach. This helps to tackle the combinatorial issues which arise from the large number of categories and variables. We show that multiple imputation using MCA outperforms the best current methods
9

RAGEL, ARNAUD. "Exploration des bases incompletes application a l'aide au pretraitement des valeurs manquantes." Caen, 1999. http://www.theses.fr/1999CAEN2067.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette these traite du probleme des valeurs manquantes dans le cadre recent de l'extraction de connaissances a partir des donnees (ecd). Une etude des principaux traitements a permis de degager que les principales approches revenaient a completer les valeurs manquantes sur la base de principes relativement elementaires. L'extraction automatique de relations en presence de valeurs manquantes, comme le ferait l'expert sur un nombre limite de cas, pour la prediction des valeurs manquantes, est en effet un point delicat. Dans le but d'extraire les relations en vue d'une completion, nous nous sommes appuyes sur le concept recent des regles d'association en les adaptant au contexte des bases incompletes. Des experiences ont montre que l'algorithme que nous proposons, regles d'associations robustes (rar), retrouve en moyenne cinq fois plus de regles pertinentes que les algorithmes traditionnels. Ce resultat est important puisqu'il permet la fouille des bases incompletes par les regles d'association. Grace a celui-ci nous proposons une methode de completion des valeurs manquantes pour l'ecd : missing values completion (mvc). Mvc se sert de l'algorithme rar pour completer une base en deux etapes : extraction grace a rar de l'information potentielle puis application de ces relations pour la completion. Le resultat est une base completee, utilisable par toute methode de fouille de donnees. Le formalisme des regles permet en outre un traitement declaratif et interactif, comprehensible par l'utilisateur : rar permet de constituer un reservoir de regles formant une connaissance visualisable et modifiable.
10

Ben, Othman Leila. "Conception et validation d'une méthode de complétion des valeurs manquantes fondée sur leurs modèles d'apparition." Phd thesis, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-01017941.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'extraction de connaissances à partir de données incomplètes constitue un axe de recherche en plein essor. Dans cette thèse, nous y contribuons par la proposition d'une méthode de complétion des valeurs manquantes. Nous commençons par aborder cette problématique par la définition de modèles d'apparition des valeurs manquantes. Nous en proposons une nouvelle typologie en fonction des données connues et nous les caractérisons de façon non redondante grâce à la base d'implications propres. Un algorithme de calcul de cette base de règles, formalisé à partir de la théorie des hypergraphes, est également proposé dans cette thèse. Ensuite, nous exploitons les informations fournies lors de l'étape de caractérisation afin de proposer une méthode de complétion contextualisée, qui complète les valeurs manquantes selon le type aléatoire/non-aléatoire et selon le contexte. La complétion des valeurs manquantes non aléatoires est effectuée par des valeurs spéciales, renfermant intrinsèquement les origines des valeurs manquantes et déterminées grâce à des schémas de caractérisation. Finalement, nous nous intéressons aux techniques d'évaluation des méthodes de complétion et nous proposons une nouvelle technique fondée sur la stabilité d'un clustering entre les données de référence et les données complétées.

Книги з теми "Imputation de Valeurs manquantes":

1

Buuren, Stef van. Flexible imputation of missing data. Boca Raton: CRC Press, 2012.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Raghunathan, Trivellore, Patricia A. Berglund, and Peter W. Solenberger. Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Raghunathan, Trivellore, Patricia A. Berglund, and Peter W. Solenberger. Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Raghunathan, Trivellore, Patricia A. Berglund, and Peter W. Solenberger. Multiple Imputation in Practice: With Examples Using IVEware. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
7

Buuren, Stef van. Flexible Imputation of Missing Data Second Edition. Taylor & Francis Group, 2021.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
8

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
9

Buuren, Stef van. Flexible Imputation of Missing Data, Second Edition. Taylor & Francis Group, 2018.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
10

Buuren, Stef van. Flexible Imputation of Missing Data. Taylor & Francis Group, 2012.

Знайти повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.

До бібліографії