Academic literature on the topic 'Nettoyage des données'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Nettoyage des données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Nettoyage des données"

1

Yasseen III, Abdool, Deborah Weiss, Sandy Remer, et al. "Augmentation du nombre d’appels relatifs à une exposition à certains nettoyants et désinfectants au début de la pandémie de COVID-19 : données des centres antipoison canadiens." Promotion de la santé et prévention des maladies chroniques au Canada 41, no. 1 (2021): 27–32. http://dx.doi.org/10.24095/hpcdp.41.1.03f.

Full text
Abstract:
Résumé On sait peu de choses sur l’utilisation, correcte ou incorrecte, des produits de nettoyage pendant la pandémie de COVID-19. Nous avons compilé des données provenant de centres antipoison canadiens pour janvier à juin 2019 et janvier à juin 2020 et nous rendons compte ici des appels relatifs à certains produits de nettoyage et de l’évolution en pourcentages entre ces deux périodes. Il y a eu 3 408 appels (42 %) portant sur des agents de blanchiment, 2015 (25 %) sur des désinfectants pour les mains, 1667 (21 %) sur des désinfectants, 949 (12 %) sur le chlore gazeux et 148 (2 %) sur la chloramine gazeuse. On a observé une augmentation du nombre d’appels en concomitance avec l’apparition de la COVID-19, avec un pic en mars. L’accès rapide aux données des centres antipoison canadiens a permis une communication précoce de messages de sécurité au public.
APA, Harvard, Vancouver, ISO, and other styles
2

HUGON, Florèn, Xavier NAVARRO, Matt RODRIGUEZ, NEVES Gabriel DAS, Matthieu BERRONEAU, and Frank D'AMICO. "Mise en forme et contrôle qualité de données, l'informatique au service de l'écologie." Naturae 2022, no. 2 (2022): 17–30. https://doi.org/10.5852/naturae2022a2.

Full text
Abstract:
Dans de nombreuses disciplines scientifiques, des études expérimentales ou des suivis sur le terrain assurent la récolte de données. Celles-ci sont stockées sur des fichiers bruts avec un format intuitif, permettant une saisie facile par l'expérimentateur. Cependant, ce format brut est rarement directement compatible avec l'analyse des données récoltées et peut engendrer des analyses erronées ; il est nécessaire d'effectuer une mise en forme et un contrôle qualité des données. Face au nombre de jeux de données brutes croissants et toujours plus massifs, la discipline du numérique pour les sciences du vivant s'est développée. La programmation informatique représente une aide précieuse pour les modélisateurs puisqu'elle permet d'automatiser la mise en forme et le contrôle qualité qui nécessitent souvent un nettoyage des données. Dans cet article, nous présentons une collaboration entre informaticien et modélisateur dans le cadre du suivi de l'abondance d'espèces animales. Les données récoltées sur plusieurs feuilles d'un tableur sont regroupées sur une seule et leur qualité est vérifiée. Les diverses fonctionnalités du programme effectuant cette vérification ont été mises en place à l'aide de la méthode « agile », méthode de développement informatique constituée de sprints. Après la fourniture d'une version du programme, un nouveau sprint définit une nouvelle fonctionnalité à mettre en place par l'informaticien dans une nouvelle version du programme. La première version permet l'appropriation du jeu de données par l'informaticien grâce à la fonctionnalité de mise en forme. Une version plus avancée gère l'absence de données, puis d'autres contrôlent la qualité des données récoltées et rapportent le traitement des anomalies détectées – donnée absente ou erronée ou en dehors d'une plage spécifiée – dans un fichier texte. Ce programme informatique a été explicité afin qu'il puisse être ré-approprié et ré-utilisé. Sa version complète est déposée dans GitHub. Le lien est donné en conclusion.
APA, Harvard, Vancouver, ISO, and other styles
3

Bouzeghoub, Mokrane, Zoubida Kedad, and Assia Soukane. "Génération de requêtes de médiation intégrant le nettoyage de données." Ingénierie des systèmes d'information 7, no. 3 (2002): 39–66. http://dx.doi.org/10.3166/isi.7.3.39-66.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Knutsen, Gunnar W. "Alimenter des bases de données grâce à l’intelligence artificielle." Histoire & mesure XXXIX, no. 2 (2024): 99–116. https://doi.org/10.4000/140kk.

Full text
Abstract:
Cet article explore l’impact de l’intelligence artificielle (IA) sur la recherche historique : en revisitant les premières tentatives de numérisation des procès de l’Inquisition espagnole et portugaise, il montre comment les technologies actuelles, en particulier les grands modèles de langage (LLM), ont révolutionné la gestion des bases de données. Grâce à l’IA, les tâches complexes telles que la saisie, le nettoyage et la normalisation des données sont considérablement simplifiées, ce qui marque une nouvelle étape dans l’informatisation des études historiques. L’article souligne également l’importance de former les historiens à ces nouveaux outils pour maximiser leur potentiel tout en minimisant les risques.
APA, Harvard, Vancouver, ISO, and other styles
5

Kremp, Elizabeth. "Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale." Économie & prévision 119, no. 3 (1995): 171–93. http://dx.doi.org/10.3406/ecop.1995.5738.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Rivera Andía, Juan Javier, and Geneviève Deschamps. "Comparaison entre la herranza, la « fête de l’eau » et la zafa-casa dans les Andes." Recherches amérindiennes au Québec 44, no. 2-3 (2015): 39–48. http://dx.doi.org/10.7202/1030965ar.

Full text
Abstract:
Le but de cet article est de comparer le rituel andin qui entoure le marquage du bétail (herranza) avec d’autres rites essentiels du cycle annuel de la région. L’auteur compare tout d’abord la herranza avec les rituels liés au nettoyage des canaux d’irrigation, puis il la confronte avec les cérémonies relatives au recouvrement des chaumières. La première comparaison est géographiquement limitée à une seule région – celle de la sierra de Lima –, tandis que la seconde considère les ethnographies d’autres régions de langue quechua afin de pallier le manque de données existantes sur le sujet. Lorsqu’elle est intégrée de cette façon au cycle rituel annuel, la herranza se révèle être une forme de rite de passage dont les multiples dimensions symboliques sont ici explorées.
APA, Harvard, Vancouver, ISO, and other styles
7

Khardi, Abdeslam, Abdelaziz Nogot, Mustapha Abdellaoui, and Fatima Jaiti. "Valorisation des sous-produits du palmier-dattier pour contribuer à la durabilité des oasis du Maroc." Cahiers Agricultures 33 (2024): 3. http://dx.doi.org/10.1051/cagri/2023027.

Full text
Abstract:
L’objectif de l’étude est de réduire les risques de dissémination du Fusarium oxysporum fs albedenis (bayoud) et d’incendies de palmeraies, causés par l’accumulation des sous-produits du palmier dattier. Pour cela, nous avons réalisé des entretiens avec les phœniciculteurs des oasis et de leurs extensions sur l’entretien du palmier dattier, la gestion de ses résidus, les problèmes engendrés par leur accumulation, ainsi que sur les voies de pérennisation des opérations de nettoyage des palmeraies. Nous avons également évalué le poids des différents types de résidus du palmier dattier et exploité les données sur les incendies. L’étude a montré que les fumures apportées au palmier dattier sont faibles et que l’accumulation des sous-produits provoque la dissémination de maladies cryptogamiques (Fusarium), la prolifération de ravageurs (cochenille blanche), un encombrement et le déclenchement d’incendies. Elle a également montré qu’un palmier produit annuellement 0,62 kg de fibrillium, 15 palmes sèches, 10 rafles et 7 pétioles, qui pèsent respectivement 0,91 kg/palme, 0,39 kg/rafle et 0,43 kg/pétiole, soit en moyenne 21,2 kg/an de résidus par palmier. Le potentiel de biomasse produite par la culture du palmier dattier au Tafilalet s’élève donc à 52 400 tonnes/an, dont près de 62 % sont laissés sur le sol, à l’extérieur des parcelles ou brulés. Les entretiens ont montré que la valorisation de ce flux régulier de biomasse serait bénéfique pour la population oasienne et la filière phœnicicole. Les projets de valorisation intégrant les producteurs auront probablement un effet d’entraînement sur l’élagage des palmiers et le nettoyage des palmeraies. Ils contribueront également à atténuer la dissémination du bayoud et la fréquence des incendies, et par conséquent à la durabilité des oasis.
APA, Harvard, Vancouver, ISO, and other styles
8

Elouazzani, Lamiaa, and Abdellatif Chakor. "Impact de la normalisation sur les structures organisationnelles et comportements dans le secteur du nettoyage au Maroc." International Journal of Research in Economics and Finance 2, no. 4 (2025): 121–34. https://doi.org/10.71420/ijref.v2i4.95.

Full text
Abstract:
Cette étude examine l'impact de la normalisation sur les structures organisationnelles et les comportements dans le secteur du nettoyage au Maroc. Elle s'appuie sur une revue de la littérature explorant l'importance des normes, les objectifs de la normalisation et son influence sur les comportements organisationnels. La méthodologie de recherche se concentre sur la région de Rabat-Salé-Kénitra, utilisant un échantillonnage aléatoire simple de 85 entreprises. Les données ont été collectées via un questionnaire structuré, couvrant les pratiques de normalisation, l'impact sur la performance et le comportement des employés. Les résultats empiriques, basés sur des analyses statistiques descriptives et inférentielles (ANOVA), montrent que la normalisation a des effets positifs significatifs sur l'efficacité opérationnelle, la réduction des coûts, la qualité des services, et dans une certaine mesure, sur les comportements de citoyenneté organisationnelle (OCB) et la formation continue. Cependant, l'impact sur la satisfaction des employés est moins prononcé. L'étude révèle également des opportunités d'amélioration dans les domaines de la formation continue, des pratiques d'économie circulaire et de la gestion des déchets dangereux.
APA, Harvard, Vancouver, ISO, and other styles
9

Lefrançois, Mélanie, Johanne Saint-Charles, and Karen Messing. "« Travailler la nuit pour voir ses enfants, ce n’est pas l’idéal ! »." Articles 72, no. 1 (2017): 99–124. http://dx.doi.org/10.7202/1039592ar.

Full text
Abstract:
Les horaires atypiques imposés compliquent la conciliation travail-famille (CTF), particulièrement lorsqu’ils sont associés à un travail impliquant un bas salaire, un faible contrôle sur le travail, ou du temps partiel involontaire. Un nombre grandissant de travailleuses et de travailleurs sont exposés à ces horaires, mais peu d’études se sont intéressées aux stratégies de CTF déployées pour faire face à ces conditions contraignantes. Les seuls accommodements possibles reposent souvent sur des ententes informelles. Ces ententes sont fragiles et individuelles et, de plus, elles sont marquées par les rapports avec un gestionnaire ou des collègues. Elles exercent aussi une pression importante sur le collectif de travail, ce qui peut venir limiter la marge de manoeuvre permettant de concilier les deux réalités, c’est-à-dire l’espace nécessaire afin d’adapter sa tâche en fonction de son contexte et de ses capacités. Notre étude interdisciplinaire (en communication et ergonomie) porte sur les stratégies de CTF d’agentes et d’agents de nettoyage, un emploi comportant des horaires atypiques imposés et un faible niveau de prestige social. Cet article porte sur les facteurs organisationnels et les dynamiques relationnelles qui influencent la marge de manoeuvre d’agentes de nettoyage qui, pour concilier horaires atypiques et vie familiale, font le choix de travailler la nuit. L’analyse des données provenant d’observations et d’entretiens met en évidence l’interaction entre le choix de l’horaire de travail, le soutien des collègues et les rapports liés au genre ainsi qu’à l’ancienneté. En situant les stratégies de CTF au coeur de l’activité de travail, nos résultats permettent d’illustrer les tensions collectives suscitées par l’accommodement des besoins individuels de CTF. Améliorer les marges de manoeuvre visant à concilier vie familiale et horaires atypiques nécessite d’intervenir simultanément sur l’organisation du travail et les dynamiques relationnelles afin de favoriser l’émergence de pratiques collectives de soutien autour des enjeux de CTF. Ces dynamiques doivent être prises en compte lors de la mise en place de mesures organisationnelles, voire même de dispositifs légaux ayant pour but de faciliter la CTF.
APA, Harvard, Vancouver, ISO, and other styles
10

Couture, Andréanne, Najat Bhiry, James Woollett, and Yves Monette. "Géoarchéologie de maisons multifamiliales inuit de la période de contact au Labrador." Études/Inuit/Studies 39, no. 2 (2016): 233–58. http://dx.doi.org/10.7202/1038149ar.

Full text
Abstract:
Afin de documenter davantage la configuration interne de maisons multifamiliales inuit du Labrador et l’impact anthropique de leur occupation sur la matrice sédimentaire, une combinaison d’analyses micromorphologiques et géochimiques a été mise en oeuvre dans l’étude de trois habitations multifamiliales situées sur les sites archéologiques d’Oakes Bay-1 et d’Uivak Point 1. À l’issue des analyses, plusieurs indicateurs anthropiques associés à l’occupation inuit de ces maisons ont été identifiés. Notamment, la présence d’ossements et de matière organique carbonisés, ainsi que l’enrichissement en sodium, en phosphore organique et en baryum, suggèrent la concentration de résidus animaux et organiques pouvant avoir résulté d’activités de cuisine. La dispersion de plusieurs indicateurs anthropiques dans toutes les aires de la maison pourrait avoir été causée par des évènements de nettoyage ou des processus naturels postérieurs aux dépôts. Cette tendance à la dispersion a rendu impossible la détermination d’aires d’activités spécifiques dans les maisons multifamiliales étudiées, à l’exception du cas de la Maison 1 d’Oakes Bay-1. Toutefois, nos données confirment que l’occupation inuit d’Oakes Bay-1 et Uivak Point 1, malgré son caractère saisonnier et sporadique, a assurément eu un impact sur la matrice sédimentaire de ces deux sites archéologiques.
APA, Harvard, Vancouver, ISO, and other styles
More sources

Dissertations / Theses on the topic "Nettoyage des données"

1

Galhardas, Héléna. "Nettoyage de données : modèle, langage déclaratif et algorithmes." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0032.

Full text
Abstract:
Le problème de nettoyage de données qui consiste à éliminer les incohèrences et les erreurs trouvées dans des jeux de données originaux, est bien connu dans le domaine des systèmes d'aide à la décision et des entrepôts de données. Néanmoins, pour des applications non-conventionnelles, telles que la migration de données faiblement structurées vers des données structurées, ou l'intégration de jeux de données scientifiques hetérogènes dans des domaines inter-disciplinaires (e. G. , dans les sciences de l'environnement), les outils d'ETL (Extraction Transformation Loading) et de nettoyage de données existants sont suffisants. Leur principal défi est la conception d'un graphe de flots de données qui gènere des données nettoyées d'une manière effective, et qui se comporte de façon efficace en face de grandes volumes d'information. La difficulté sous-jacente est due à : (i) l'absence de séparation claire entre la spécification logique des transformations de données et leur implantation physique ; (ii) l'absence de techniques de debbugage du résultat d'un processus de nettoyage, (iii) et de modes d'interaction humaine permettant d'affiner un programme de nettoyage de données. Cette thèse adresse ces trois problèmes et présente un langage, un modèle d'execution et des algorithmes qui permettent aux utilisateurs d'exprimer des spécifications de nettoyage de données de façon déclarative aussi bien que d'exécuter le processus de nettoyage efficacement. Nous utilisons comme exemple un ensemble de références bibliographiques utilisées auparavent pour construire le site Web de Citeseer. Le problème d'intégration de données inhérent est celui de dériver des enregistrement textuels structurés et nettoyés de façon à permettre l'évaluation de requêtes pertinentes. Les résultats expérimentaux présentent l'évaluation de l'environnement de nettoyage de données proposé<br>The problem od data cleaning, which consists of removing inconsistencies and errors from original data sets, is well know in the area of decision support systems and data warehouses. This holds regardless of the application-relational database joining, web-related, or scientific. In all cases, existing ETL (Extraction transformation Loading) and data cleaning tools for writing data cleaning programs are insufficient. The main challenge is the design and implementation of a data flow graph that effectivrly generates clean data. Needed improvements to the current state of the art include (i) a clear separation between the logical specification of data transformations and their physical implementation (ii) debugging of the reasoning behind cleaning results, (iii) and interactive facilities to tune a data cleaning program. This thesis presents a langage, an execution model and algorithms that enable users to express data cleaning specifications declaratively and perform the cleaning efficiently. We use as an example a set of bibliographic references used to construct the Citeseer web site. The underlying data integration problem is to derive structured and clean textual records so that meaningful queries can be performed. Experimental results report on the assesment of the proposed framework for data cleaning
APA, Harvard, Vancouver, ISO, and other styles
2

Ben, salem Aïcha. "Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD054/document.

Full text
Abstract:
De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur<br>Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The first part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns offer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the first part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user
APA, Harvard, Vancouver, ISO, and other styles
3

Manad, Otman. "Nettoyage de corpus web pour le traitement automatique des langues." Electronic Thesis or Diss., Paris 8, 2018. http://www.theses.fr/2018PA080011.

Full text
Abstract:
Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent<br>Corpora are the main material of computer linguistics and natural language processing. Not many languages have corpora made from web resources (forums, blogs, etc.), even those that do not have other resources. Web resources contain lots of noise (menus, ads, etc.). Filtering boilerplate and repetitive data requires a large-scale manual cleaning by the researcher.This thesis presents an automatic system that construct web corpus with a low level of noise.It consists of three modules : (a) one for building corpora in any language and any type of data, intended to be collaborative and preserving corpus history; (b) one for crawling web forums and blogs; (c) one for extracting relevant data using clustering techniques with different distances, from the structure of web page.The system is evaluated in terms of the efficacy of noise filtering and of computing time. Our experiments, made on four languages, are evaluated using our own gold standard corpus. To measure quality, we use recall, precision and F-measure. Feature-distance and Jaro distance give the best results, but not in the same contexts, feature-distance having the best average quality.We compare our method with three methods dealing with the same problem, Nutch, BootCat and JusText. The performance of our system is better as regards the extraction quality, even if for computing time, Nutch and BootCat dominate
APA, Harvard, Vancouver, ISO, and other styles
4

Tian, Yongchao. "Accéler la préparation des données pour l'analyse du big data." Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0017/document.

Full text
Abstract:
Nous vivons dans un monde de big data, où les données sont générées en grand volume, grande vitesse et grande variété. Le big data apportent des valeurs et des avantages énormes, de sorte que l’analyse des données est devenue un facteur essentiel de succès commercial dans tous les secteurs. Cependant, si les données ne sont pas analysées assez rapidement, les bénéfices de big data seront limités ou même perdus. Malgré l’existence de nombreux systèmes modernes d’analyse de données à grande échelle, la préparation des données est le processus le plus long de l’analyse des données, n’a pas encore reçu suffisamment d’attention. Dans cette thèse, nous étudions le problème de la façon d’accélérer la préparation des données pour le big data d’analyse. En particulier, nous nous concentrons sur deux grandes étapes de préparation des données, le chargement des données et le nettoyage des données. Comme première contribution de cette thèse, nous concevons DiNoDB, un système SQL-on-Hadoop qui réalise l’exécution de requêtes à vitesse interactive sans nécessiter de chargement de données. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de données et nécessitent en même temps des analyses interactives ad hoc efficaces sur les données temporaires générées dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, nécessitant de charger l’ensemble des données temporaires pour obtenir des requêtes interactives. En revanche, DiNoDB évite la phase coûteuse de chargement et de transformation des données. L’innovation importante de DiNoDB est d’intégrer à la phase de traitement par lots la création de métadonnées que DiNoDB exploite pour accélérer les requêtes interactives. La deuxième contribution est un système de flux distribué de nettoyage de données, appelé Bleach. Les approches de nettoyage de données évolutives existantes s’appuient sur le traitement par lots pour améliorer la qualité des données, qui demandent beaucoup de temps. Nous ciblons le nettoyage des données de flux dans lequel les données sont nettoyées progressivement en temps réel. Bleach est le premier système de nettoyage qualitatif de données de flux, qui réalise à la fois la détection des violations en temps réel et la réparation des données sur un flux de données sale. Il s’appuie sur des structures de données efficaces, compactes et distribuées pour maintenir l’état nécessaire pour nettoyer les données et prend également en charge la dynamique des règles. Nous démontrons que les deux systèmes résultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avancées dans nos évaluations expérimentales, et peuvent aider les chercheurs à réduire considérablement leur temps consacré à la préparation des données<br>We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation
APA, Harvard, Vancouver, ISO, and other styles
5

Tian, Yongchao. "Accéler la préparation des données pour l'analyse du big data." Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0017.

Full text
Abstract:
Nous vivons dans un monde de big data, où les données sont générées en grand volume, grande vitesse et grande variété. Le big data apportent des valeurs et des avantages énormes, de sorte que l’analyse des données est devenue un facteur essentiel de succès commercial dans tous les secteurs. Cependant, si les données ne sont pas analysées assez rapidement, les bénéfices de big data seront limités ou même perdus. Malgré l’existence de nombreux systèmes modernes d’analyse de données à grande échelle, la préparation des données est le processus le plus long de l’analyse des données, n’a pas encore reçu suffisamment d’attention. Dans cette thèse, nous étudions le problème de la façon d’accélérer la préparation des données pour le big data d’analyse. En particulier, nous nous concentrons sur deux grandes étapes de préparation des données, le chargement des données et le nettoyage des données. Comme première contribution de cette thèse, nous concevons DiNoDB, un système SQL-on-Hadoop qui réalise l’exécution de requêtes à vitesse interactive sans nécessiter de chargement de données. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de données et nécessitent en même temps des analyses interactives ad hoc efficaces sur les données temporaires générées dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, nécessitant de charger l’ensemble des données temporaires pour obtenir des requêtes interactives. En revanche, DiNoDB évite la phase coûteuse de chargement et de transformation des données. L’innovation importante de DiNoDB est d’intégrer à la phase de traitement par lots la création de métadonnées que DiNoDB exploite pour accélérer les requêtes interactives. La deuxième contribution est un système de flux distribué de nettoyage de données, appelé Bleach. Les approches de nettoyage de données évolutives existantes s’appuient sur le traitement par lots pour améliorer la qualité des données, qui demandent beaucoup de temps. Nous ciblons le nettoyage des données de flux dans lequel les données sont nettoyées progressivement en temps réel. Bleach est le premier système de nettoyage qualitatif de données de flux, qui réalise à la fois la détection des violations en temps réel et la réparation des données sur un flux de données sale. Il s’appuie sur des structures de données efficaces, compactes et distribuées pour maintenir l’état nécessaire pour nettoyer les données et prend également en charge la dynamique des règles. Nous démontrons que les deux systèmes résultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avancées dans nos évaluations expérimentales, et peuvent aider les chercheurs à réduire considérablement leur temps consacré à la préparation des données<br>We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation
APA, Harvard, Vancouver, ISO, and other styles
6

Manad, Otman. "Nettoyage de corpus web pour le traitement automatique des langues." Thesis, Paris 8, 2018. http://www.theses.fr/2018PA080011.

Full text
Abstract:
Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent<br>Corpora are the main material of computer linguistics and natural language processing. Not many languages have corpora made from web resources (forums, blogs, etc.), even those that do not have other resources. Web resources contain lots of noise (menus, ads, etc.). Filtering boilerplate and repetitive data requires a large-scale manual cleaning by the researcher.This thesis presents an automatic system that construct web corpus with a low level of noise.It consists of three modules : (a) one for building corpora in any language and any type of data, intended to be collaborative and preserving corpus history; (b) one for crawling web forums and blogs; (c) one for extracting relevant data using clustering techniques with different distances, from the structure of web page.The system is evaluated in terms of the efficacy of noise filtering and of computing time. Our experiments, made on four languages, are evaluated using our own gold standard corpus. To measure quality, we use recall, precision and F-measure. Feature-distance and Jaro distance give the best results, but not in the same contexts, feature-distance having the best average quality.We compare our method with three methods dealing with the same problem, Nutch, BootCat and JusText. The performance of our system is better as regards the extraction quality, even if for computing time, Nutch and BootCat dominate
APA, Harvard, Vancouver, ISO, and other styles
7

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094/document.

Full text
Abstract:
La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés<br>Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns
APA, Harvard, Vancouver, ISO, and other styles
8

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094.

Full text
Abstract:
La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés<br>Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns
APA, Harvard, Vancouver, ISO, and other styles
9

Cappuzzo, Riccardo. "Deep learning models for tabular data curation." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS047.

Full text
Abstract:
La conservation des données est un sujet omniprésent et de grande envergure, qui touche tous les domaines, du monde universitaire à l'industrie. Les solutions actuelles reposent sur le travail manuel des utilisateurs du domaine, mais elles ne sont pas adaptées. Nous étudions comment appliquer l'apprentissage profond à la conservation des données tabulaires. Nous concentrons notre travail sur le développement de systèmes de curation de données non supervisés et sur la conception de systèmes de curation qui modélisent intrinsèquement les valeurs catégorielles dans leur forme brute. Nous implémentons d'abord EmbDI pour générer des embeddings pour les données tabulaires, et nous traitons les tâches de résolution d'entités et de correspondance de schémas. Nous passons ensuite au problème de l'imputation des données en utilisant des réseaux neuronaux graphiques dans un cadre d'apprentissage multi-tâches appelé GRIMP<br>Data retention is a pervasive and far-reaching topic, affecting everything from academia to industry. Current solutions rely on manual work by domain users, but they are not adequate. We are investigating how to apply deep learning to tabular data curation. We focus our work on developing unsupervised data curation systems and designing curation systems that intrinsically model categorical values in their raw form. We first implement EmbDI to generate embeddings for tabular data, and address the tasks of entity resolution and schema matching. We then turn to the data imputation problem using graphical neural networks in a multi-task learning framework called GRIMP
APA, Harvard, Vancouver, ISO, and other styles
10

Cadot, Martine. "Extraire et valider les relations complexes en sciences humaines : statistiques, motifs et règles d'association." Phd thesis, Université de Franche-Comté, 2006. http://tel.archives-ouvertes.fr/tel-00594174.

Full text
Abstract:
Cette thèse concerne la fouille de données en sciences humaines. Cette branche récente de l'intelligence artificielle consiste en un ensemble de méthodes visant à extraire de la connaissance à partir de données stockées sur des supports informatiques. Parmi celles-ci, l'extraction de motifs et de règles d'association est une méthode de traitement des données qui permet de représenter de façon symbolique la structure des données, comme le font les méthodes statistiques classiques, mais qui, contrairement à celles-ci, reste opérationnelle en cas de données complexes, volumineuses. Toutefois ce modèle informatique des données, construit à partir de comptages de cooccurrences, n'est pas directement utilisable par les chercheurs en sciences humaines : il est essentiellement dédié aux données dichotomiques (vrai/faux), ses résultats directs, très morcelés, sont difficiles à interpréter, et sa validité peut paraître douteuse aux chercheurs habitués à la démarche statistique. Nous proposons des techniques que nous avons construites puis expérimentées sur des données réelles dans le but de réduire les difficultés d'utilisation que nous venons de décrire : 1) un test de randomisation à base d'échanges en cascade dans la matrice sujets x propriétés permet d'obtenir les liaisons statistiquement significatives entre deux propriétés, 2) une extension floue de la méthode d'extraction classique des motifs, qui produit des règles d'association floues généralisant les règles binaires et proches des règles floues définies par les chercheurs poursuivant les travaux de Zadeh, 3) MIDOVA, un algorithme extrayant les interactions n-aires entre variables - problème peu connu, peu abordé en informatique, et abordé avec de fortes limitations en statistiques - et 4) des méta-règles pour nettoyer le jeu de règles d'association de ses principales contradictions et redondances.
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Nettoyage des données"

1

Beligné, Max, Sabine Loudcher, and Isabelle Lefort. "Du nettoyage des données à la critique des sources." In Histoires de mots. Éditions de la Sorbonne, 2023. https://doi.org/10.4000/12wwi.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Beligné, Max, Sabine Loudcher, and Isabelle Lefort. "Du nettoyage des données à la critique des sources." In Histoires de mots. Éditions de la Sorbonne, 2023. https://doi.org/10.4000/12wwp.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

"Nettoyage et découverte." In L'analyse des données de sondage avec SPSS. Presses de l'Université du Québec, 2018. http://dx.doi.org/10.1515/9782760549159-005.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

"Nettoyage et découverte." In L'analyse des données de sondage avec SPSS. Presses de l'Université du Québec, 2018. http://dx.doi.org/10.2307/j.ctv10qqx59.7.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Costanzo, Lucia. "Le nettoyage de données dans le processus de gestion des données de recherche." In La gestion des données de recherche dans le contexte canadien: un guide pour la pratique et l'apprentissage. Western University, Western Libraries, 2023. http://dx.doi.org/10.5206/rhbn7291.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Luo, Rong, and Berenica Vejvoda. "Nouvelles aventures en nettoyage des données: travailler avec des données dans Excel et R." In La gestion des données de recherche dans le contexte canadien: un guide pour la pratique et l'apprentissage. Western University, Western Libraries, 2023. http://dx.doi.org/10.5206/dpci3894.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Reports on the topic "Nettoyage des données"

1

Langlais, Pierre-Carl. Données de recherche ouvertes. Comité pour la science ouverte, 2024. https://doi.org/10.52949/70.

Full text
Abstract:
La non-ouverture des données scientifiques pèse sur les budgets. On estime qu’une part importante des connaissances scientifiques disparaît chaque année. Selon une étude réalisée en 2014, moins de 50 % des jeux de données biologiques datant des années 1990 ont été récupérés, au prix d’un investissement élevé en temps et en efforts. À titre de comparaison, 98 % des jeux de données publiés dans PLOS avec des identifiants uniques (DOI) sont toujours disponibles pour les futures recherches. Les données scientifiques ouvertes sont des ressources fondamentales pour un grand nombre d’activités de recherche, comme la méta-analyse, la reproduction des résultats ou l’accessibilité des sources primaires. De plus, leur valeur économique et sociale est importante, car les données scientifiques sont fréquemment exploitées par des professionnels non universitaires, des agences publiques et des organisations à but non lucratif. Pourtant, les données scientifiques ouvertes impliquent certains coûts. Rendre les données à la fois téléchargeables et exploitables nécessite d’importants investissements en matière de documentation, de nettoyage des données, de licences et d’indexation. Il n’est pas possible de partager toutes les données scientifiques, et des contrôles sont souvent nécessaires pour vérifier l’absence d’informations personnelles ou de contenu soumis à droit d’auteur. Pour être efficace, le partage des données doit être anticipé tout au long du cycle de vie de la recherche. Les nouveaux principes de gestion des données scientifiques visent à formaliser les cultures de données observées dans les communautés scientifiques et à appliquer des normes communes. Initialement publiés en 2016, les principes FAIR (Facilité à trouver, Accessibilité, Interopérabilité et Réutilisabilité) constituent un cadre de référence pour l’ouverture des données scientifiques. Les politiques en faveur du partage des données sont passées d’un discours général d’encouragement au développement concret de services dédiés. Les premières initiatives remontent aux infrastructures informatiques pionnières : en 1957, le système WDC (World Data Center) visait à rendre facilement accessibles un large panel de données scientifiques. Les programmes de données ouvertes étaient pourtant sévèrement limités par les lacunes techniques et les incompatibilités lors des transferts. Après 1991, le Web a fourni un cadre universel pour l’échange de données et entraîné une expansion massive des bases de données scientifiques. Et pourtant, bien des projets ont rencontré des problèmes critiques de durabilité à long terme. Les infrastructures de science ouverte sont récemment devenues des vecteurs clés de la diffusion et de la gestion des données scientifiques ouvertes. Les référentiels assurent la conservation et la découvrabilité des ressources scientifiques. Les données qu’ils hébergent sont plus fréquemment utilisées et citées que celles publiées dans les fichiers supplémentaires.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography