Academic literature on the topic 'Nettoyage des données'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Nettoyage des données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Nettoyage des données"

1

Yasseen III, Abdool, Deborah Weiss, Sandy Remer, Nina Dobbin, Morgan MacNeill, Bojana Bogeljic, Dennis Leong, et al. "Augmentation du nombre d’appels relatifs à une exposition à certains nettoyants et désinfectants au début de la pandémie de COVID-19 : données des centres antipoison canadiens." Promotion de la santé et prévention des maladies chroniques au Canada 41, no. 1 (January 2021): 27–32. http://dx.doi.org/10.24095/hpcdp.41.1.03f.

Full text
Abstract:
Résumé On sait peu de choses sur l’utilisation, correcte ou incorrecte, des produits de nettoyage pendant la pandémie de COVID-19. Nous avons compilé des données provenant de centres antipoison canadiens pour janvier à juin 2019 et janvier à juin 2020 et nous rendons compte ici des appels relatifs à certains produits de nettoyage et de l’évolution en pourcentages entre ces deux périodes. Il y a eu 3 408 appels (42 %) portant sur des agents de blanchiment, 2015 (25 %) sur des désinfectants pour les mains, 1667 (21 %) sur des désinfectants, 949 (12 %) sur le chlore gazeux et 148 (2 %) sur la chloramine gazeuse. On a observé une augmentation du nombre d’appels en concomitance avec l’apparition de la COVID-19, avec un pic en mars. L’accès rapide aux données des centres antipoison canadiens a permis une communication précoce de messages de sécurité au public.
APA, Harvard, Vancouver, ISO, and other styles
2

Bouzeghoub, Mokrane, Zoubida Kedad, and Assia Soukane. "Génération de requêtes de médiation intégrant le nettoyage de données." Ingénierie des systèmes d'information 7, no. 3 (June 24, 2002): 39–66. http://dx.doi.org/10.3166/isi.7.3.39-66.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Kremp, Elizabeth. "Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale." Économie & prévision 119, no. 3 (1995): 171–93. http://dx.doi.org/10.3406/ecop.1995.5738.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Rivera Andía, Juan Javier, and Geneviève Deschamps. "Comparaison entre la herranza, la « fête de l’eau » et la zafa-casa dans les Andes." Recherches amérindiennes au Québec 44, no. 2-3 (June 1, 2015): 39–48. http://dx.doi.org/10.7202/1030965ar.

Full text
Abstract:
Le but de cet article est de comparer le rituel andin qui entoure le marquage du bétail (herranza) avec d’autres rites essentiels du cycle annuel de la région. L’auteur compare tout d’abord la herranza avec les rituels liés au nettoyage des canaux d’irrigation, puis il la confronte avec les cérémonies relatives au recouvrement des chaumières. La première comparaison est géographiquement limitée à une seule région – celle de la sierra de Lima –, tandis que la seconde considère les ethnographies d’autres régions de langue quechua afin de pallier le manque de données existantes sur le sujet. Lorsqu’elle est intégrée de cette façon au cycle rituel annuel, la herranza se révèle être une forme de rite de passage dont les multiples dimensions symboliques sont ici explorées.
APA, Harvard, Vancouver, ISO, and other styles
5

Khardi, Abdeslam, Abdelaziz Nogot, Mustapha Abdellaoui, and Fatima Jaiti. "Valorisation des sous-produits du palmier-dattier pour contribuer à la durabilité des oasis du Maroc." Cahiers Agricultures 33 (2024): 3. http://dx.doi.org/10.1051/cagri/2023027.

Full text
Abstract:
L’objectif de l’étude est de réduire les risques de dissémination du Fusarium oxysporum fs albedenis (bayoud) et d’incendies de palmeraies, causés par l’accumulation des sous-produits du palmier dattier. Pour cela, nous avons réalisé des entretiens avec les phœniciculteurs des oasis et de leurs extensions sur l’entretien du palmier dattier, la gestion de ses résidus, les problèmes engendrés par leur accumulation, ainsi que sur les voies de pérennisation des opérations de nettoyage des palmeraies. Nous avons également évalué le poids des différents types de résidus du palmier dattier et exploité les données sur les incendies. L’étude a montré que les fumures apportées au palmier dattier sont faibles et que l’accumulation des sous-produits provoque la dissémination de maladies cryptogamiques (Fusarium), la prolifération de ravageurs (cochenille blanche), un encombrement et le déclenchement d’incendies. Elle a également montré qu’un palmier produit annuellement 0,62 kg de fibrillium, 15 palmes sèches, 10 rafles et 7 pétioles, qui pèsent respectivement 0,91 kg/palme, 0,39 kg/rafle et 0,43 kg/pétiole, soit en moyenne 21,2 kg/an de résidus par palmier. Le potentiel de biomasse produite par la culture du palmier dattier au Tafilalet s’élève donc à 52 400 tonnes/an, dont près de 62 % sont laissés sur le sol, à l’extérieur des parcelles ou brulés. Les entretiens ont montré que la valorisation de ce flux régulier de biomasse serait bénéfique pour la population oasienne et la filière phœnicicole. Les projets de valorisation intégrant les producteurs auront probablement un effet d’entraînement sur l’élagage des palmiers et le nettoyage des palmeraies. Ils contribueront également à atténuer la dissémination du bayoud et la fréquence des incendies, et par conséquent à la durabilité des oasis.
APA, Harvard, Vancouver, ISO, and other styles
6

Lefrançois, Mélanie, Johanne Saint-Charles, and Karen Messing. "« Travailler la nuit pour voir ses enfants, ce n’est pas l’idéal ! »." Articles 72, no. 1 (April 19, 2017): 99–124. http://dx.doi.org/10.7202/1039592ar.

Full text
Abstract:
Les horaires atypiques imposés compliquent la conciliation travail-famille (CTF), particulièrement lorsqu’ils sont associés à un travail impliquant un bas salaire, un faible contrôle sur le travail, ou du temps partiel involontaire. Un nombre grandissant de travailleuses et de travailleurs sont exposés à ces horaires, mais peu d’études se sont intéressées aux stratégies de CTF déployées pour faire face à ces conditions contraignantes. Les seuls accommodements possibles reposent souvent sur des ententes informelles. Ces ententes sont fragiles et individuelles et, de plus, elles sont marquées par les rapports avec un gestionnaire ou des collègues. Elles exercent aussi une pression importante sur le collectif de travail, ce qui peut venir limiter la marge de manoeuvre permettant de concilier les deux réalités, c’est-à-dire l’espace nécessaire afin d’adapter sa tâche en fonction de son contexte et de ses capacités. Notre étude interdisciplinaire (en communication et ergonomie) porte sur les stratégies de CTF d’agentes et d’agents de nettoyage, un emploi comportant des horaires atypiques imposés et un faible niveau de prestige social. Cet article porte sur les facteurs organisationnels et les dynamiques relationnelles qui influencent la marge de manoeuvre d’agentes de nettoyage qui, pour concilier horaires atypiques et vie familiale, font le choix de travailler la nuit. L’analyse des données provenant d’observations et d’entretiens met en évidence l’interaction entre le choix de l’horaire de travail, le soutien des collègues et les rapports liés au genre ainsi qu’à l’ancienneté. En situant les stratégies de CTF au coeur de l’activité de travail, nos résultats permettent d’illustrer les tensions collectives suscitées par l’accommodement des besoins individuels de CTF. Améliorer les marges de manoeuvre visant à concilier vie familiale et horaires atypiques nécessite d’intervenir simultanément sur l’organisation du travail et les dynamiques relationnelles afin de favoriser l’émergence de pratiques collectives de soutien autour des enjeux de CTF. Ces dynamiques doivent être prises en compte lors de la mise en place de mesures organisationnelles, voire même de dispositifs légaux ayant pour but de faciliter la CTF.
APA, Harvard, Vancouver, ISO, and other styles
7

Couture, Andréanne, Najat Bhiry, James Woollett, and Yves Monette. "Géoarchéologie de maisons multifamiliales inuit de la période de contact au Labrador." Études/Inuit/Studies 39, no. 2 (December 2, 2016): 233–58. http://dx.doi.org/10.7202/1038149ar.

Full text
Abstract:
Afin de documenter davantage la configuration interne de maisons multifamiliales inuit du Labrador et l’impact anthropique de leur occupation sur la matrice sédimentaire, une combinaison d’analyses micromorphologiques et géochimiques a été mise en oeuvre dans l’étude de trois habitations multifamiliales situées sur les sites archéologiques d’Oakes Bay-1 et d’Uivak Point 1. À l’issue des analyses, plusieurs indicateurs anthropiques associés à l’occupation inuit de ces maisons ont été identifiés. Notamment, la présence d’ossements et de matière organique carbonisés, ainsi que l’enrichissement en sodium, en phosphore organique et en baryum, suggèrent la concentration de résidus animaux et organiques pouvant avoir résulté d’activités de cuisine. La dispersion de plusieurs indicateurs anthropiques dans toutes les aires de la maison pourrait avoir été causée par des évènements de nettoyage ou des processus naturels postérieurs aux dépôts. Cette tendance à la dispersion a rendu impossible la détermination d’aires d’activités spécifiques dans les maisons multifamiliales étudiées, à l’exception du cas de la Maison 1 d’Oakes Bay-1. Toutefois, nos données confirment que l’occupation inuit d’Oakes Bay-1 et Uivak Point 1, malgré son caractère saisonnier et sporadique, a assurément eu un impact sur la matrice sédimentaire de ces deux sites archéologiques.
APA, Harvard, Vancouver, ISO, and other styles
8

Carmen GNELE, Baï Dodji Laurenda, Pierre OUASSA, Expédit Wilfrid VISSIN, and Moussa GIBIGAYE. "Facteurs De Contaminations Des Aliments Dans Les Restaurants De Rue De La Commune D’Abomey-Calavi Au Sud Du Benin, Afrique De L’ouest." International Journal of Progressive Sciences and Technologies 41, no. 1 (October 22, 2023): 93. http://dx.doi.org/10.52155/ijpsat.v41.1.5674.

Full text
Abstract:
La restauration de rue est une activité économique très peu organisée qui présente de nombreuses conséquences notamment sur la santé des populations. L’objectif de cette recherche est d’analyser les différents facteurs qui concourent à la contamination des aliments vendus dans les restaurants de rue de la Commune d’Abomey-Calavi.La méthodologie adoptée, est basée essentiellement sur la recherche documentaire et les travaux de terrain réalisés essentiellement auprès de 385 personnes constituées des consommateurs, des vendeurs et vendeuses, des agents de santé, des autorités municipales, etc. Le traitement des données a été réalisée de deux manières à savoir : le traitement manuel et le celui à base de logiciels. Ainsi, dans un premier temps, en ce qui concerne le traitement manuel, on a procédé au contrôle du bon remplissage des questionnaires. Puis, s’en suit le traitement avec des logiciels. A ce niveau, les données sont insérées dans le logiciel SPSS pour permettre la détermination des statistiques surtout les fréquences.Des résultats obtenus, il ressort que dans la Commune d’Abomey-Calavi, le domaine de la restauration de rue est assuré par les bars-restaurants, les maquis et les restaurants pleins air. Les facteurs de risque associés à l'alimentation sont assez nombreux et variés et comprennent principalement : l'utilisation d'eau souillée ; l'utilisation de matières premières polluées ou mal lavées ; l'emploi de matériels de travail souillés. Il est donc nécessaire d’améliorer les conditions d’hygiène par une plus grande implication des services officiels intervenant dans le contrôle, une sensibilisation des personnels des cuisines aux règles élémentaires d’hygiène, et par la mise sur pied d’un programme de nettoyage désinfection des locaux et du matériel.
APA, Harvard, Vancouver, ISO, and other styles
9

Anderson, Maureen, Ashok Chhetri, Edith Halyk, Amanda Lang, Ryan McDonald, Julie Kryzanowski, Jessica Minion, and Molly Trecker. "Une éclosion de COVID-19 associée à un centre d’entraînement physique en Saskatchewan : leçons pour la prévention." Relevé des maladies transmissibles au Canada 47, no. 11 (November 10, 2021): 538–44. http://dx.doi.org/10.14745/ccdr.v47i11a08f.

Full text
Abstract:
Contexte : Une éclosion de la maladie à coronavirus 2019 (COVID-19) est survenue en Saskatchewan du 12 septembre au 20 octobre 2020. L’événement index, la fréquentation d’un centre d’entraînement physique local, a donné naissance à six éclosions/agrégats de cas supplémentaires dans de multiples contextes. Il s’agissait d’une école secondaire, d’un hôpital, de trois lieux de travail (A, B et C) et de plusieurs ménages. L’aggrégat comprenait 63 cas au total, soit 27 membres du centre d’entraînement et 36 autres cas de deuxième, troisième et quatrième génération. Méthodes : Tous les cas de COVID-19 liés à l’éclosion et confirmés en laboratoire ont été inclus dans l’analyse. Les autorités locales de santé publique ont interrogé tous les cas et les contacts et ont mené des enquêtes environnementales dans le centre d’entraînement physique. Nous avons utilisé des méthodes épidémiologiques descriptives pour comprendre la dynamique de transmission de l’aggrégat associé au centre d’entraînement en utilisant l’enquête des cas, l’enquête sur les contacts et les données de laboratoire, y compris le séquençage du génome entier. Résultats : Les données de séquençage ont confirmé la lignée unique des cas liés à l’aggrégat (n = 32 séquencés; coronavirus du syndrome respiratoire aigu sévère 2 [SRAS-CoV-2] lignée B.1.1.72). En plus de la fréquentation du centre d’entraînement, des cas infectieux fréquentaient l’école secondaire et étaient impliqués dans d’autres activités. Malgré la transmission continue dans le centre d’entraînement, aucun cas secondaire n’a été identifié dans l’école secondaire où quatre élèves appartenant à l’aggrégat ont assisté à des cours pendant leur période infectieuse. Conclusion : Nous décrivons une éclosion de COVID-19 où le ou les cas index fréquentaient un centre d’entraînement, et où la propagation s’est poursuivie pendant 38 jours malgré le dépistage et l’isolement des cas positifs au cours de cette période. En raison de la fréquentation du centre d’entraînement au fil du temps, la fermeture à court terme et le nettoyage peuvent ne pas interrompre les chaînes de transmission. Une mesure de santé publique ciblée et préventive dans les installations d’entraînement physique peut être justifiée. Les mesures de contrôle ont permis de limiter la propagation dans les écoles.
APA, Harvard, Vancouver, ISO, and other styles
10

Schroth, Robert J., Grace Kyoon-Achan, Mary McNally, Jeanette Edwards, Penny White, Hannah Tait Neufeld, Mary Bertone, et al. "Initiative en santé buccodentaire des enfants : le point de vue des intervenants quant à ses effets dans les communautés des Premières Nations." Promotion de la santé et prévention des maladies chroniques au Canada 43, no. 9 (September 2023): 439–50. http://dx.doi.org/10.24095/hpcdp.43.9.01f.

Full text
Abstract:
Introduction Depuis 2004, l’équipe de l’Initiative en santé buccodentaire des enfants (ISBE) oeuvre dans de nombreuses communautés inuites et des Premières Nations du Canada à remédier aux disparités en matière de santé buccodentaire, en particulier en ce qui concerne la carie de la petite enfance. Alliant prévention et dentisterie peu invasive, l’approche communautaire de l’ISBE améliore la santé buccodentaire dans la petite enfance. Le programme a pour but de réduire le plus possible le fardeau de la maladie buccodentaire, en particulier d’éviter les opérations chirurgicales. Nous avons étudié les résultats du programme au sein des communautés des Premières Nations du Manitoba du point de vue du personnel de l’ISBE. Méthodologie Des thérapeutes dentaires et des aides dentaires oeuvrant dans des communautés des Premières Nations ont participé à trois groupes de discussion et à une entrevue semi-structurée approfondie. Les données rassemblées ont été analysées par thème. Résultats Des thèmes convergents propres aux professionnels des soins dentaires sont ressortis des données obtenues auprès de 22 participants. Les participants ont indiqué que les thérapeutes dentaires et les aides dentaires offrent un accès à des soins buccodentaires de base dans les communautés : l’évaluation de la santé buccodentaire, le nettoyage des dents, l’application de vernis fluoré et la pose d’agents de scellement. Les participants étaient d’accord pour affirmer que l’éducation, l’information et des relations culturellement appropriées avec les parents sont cruciales pour la prestation d’un soutien continu et le renforcement des capacités au sein des programmes communautaires. Parmi les défis mentionnés, il y a le peu d’inscriptions au programme, les difficultés d’accès aux domiciles et d’obtention du consentement, le manque de ressources humaines et l’insuffisance des occasions d’apprentissage offertes aux aides dentaires. Conclusion Dans l’ensemble, les participants ont indiqué que l’ISBE contribuait favorablement à la santé buccodentaire dans la petite enfance au sein des communautés des Premières Nations. Cependant, une offre accrue en matière de formation du personnel dentaire au sein des communautés, le fait que les membres des communautés soient au courant de l’existence du programme et la participation des parents en vue de processus de prestation et de consentement culturellement appropriés seraient essentiels à l’amélioration des résultats du programme.
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Nettoyage des données"

1

Galhardas, Héléna. "Nettoyage de données : modèle, langage déclaratif et algorithmes." Versailles-St Quentin en Yvelines, 2001. http://www.theses.fr/2001VERS0032.

Full text
Abstract:
Le problème de nettoyage de données qui consiste à éliminer les incohèrences et les erreurs trouvées dans des jeux de données originaux, est bien connu dans le domaine des systèmes d'aide à la décision et des entrepôts de données. Néanmoins, pour des applications non-conventionnelles, telles que la migration de données faiblement structurées vers des données structurées, ou l'intégration de jeux de données scientifiques hetérogènes dans des domaines inter-disciplinaires (e. G. , dans les sciences de l'environnement), les outils d'ETL (Extraction Transformation Loading) et de nettoyage de données existants sont suffisants. Leur principal défi est la conception d'un graphe de flots de données qui gènere des données nettoyées d'une manière effective, et qui se comporte de façon efficace en face de grandes volumes d'information. La difficulté sous-jacente est due à : (i) l'absence de séparation claire entre la spécification logique des transformations de données et leur implantation physique ; (ii) l'absence de techniques de debbugage du résultat d'un processus de nettoyage, (iii) et de modes d'interaction humaine permettant d'affiner un programme de nettoyage de données. Cette thèse adresse ces trois problèmes et présente un langage, un modèle d'execution et des algorithmes qui permettent aux utilisateurs d'exprimer des spécifications de nettoyage de données de façon déclarative aussi bien que d'exécuter le processus de nettoyage efficacement. Nous utilisons comme exemple un ensemble de références bibliographiques utilisées auparavent pour construire le site Web de Citeseer. Le problème d'intégration de données inhérent est celui de dériver des enregistrement textuels structurés et nettoyés de façon à permettre l'évaluation de requêtes pertinentes. Les résultats expérimentaux présentent l'évaluation de l'environnement de nettoyage de données proposé
The problem od data cleaning, which consists of removing inconsistencies and errors from original data sets, is well know in the area of decision support systems and data warehouses. This holds regardless of the application-relational database joining, web-related, or scientific. In all cases, existing ETL (Extraction transformation Loading) and data cleaning tools for writing data cleaning programs are insufficient. The main challenge is the design and implementation of a data flow graph that effectivrly generates clean data. Needed improvements to the current state of the art include (i) a clear separation between the logical specification of data transformations and their physical implementation (ii) debugging of the reasoning behind cleaning results, (iii) and interactive facilities to tune a data cleaning program. This thesis presents a langage, an execution model and algorithms that enable users to express data cleaning specifications declaratively and perform the cleaning efficiently. We use as an example a set of bibliographic references used to construct the Citeseer web site. The underlying data integration problem is to derive structured and clean textual records so that meaningful queries can be performed. Experimental results report on the assesment of the proposed framework for data cleaning
APA, Harvard, Vancouver, ISO, and other styles
2

Ben, salem Aïcha. "Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCD054/document.

Full text
Abstract:
De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur
Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The first part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns offer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the first part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user
APA, Harvard, Vancouver, ISO, and other styles
3

Tian, Yongchao. "Accéler la préparation des données pour l'analyse du big data." Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0017/document.

Full text
Abstract:
Nous vivons dans un monde de big data, où les données sont générées en grand volume, grande vitesse et grande variété. Le big data apportent des valeurs et des avantages énormes, de sorte que l’analyse des données est devenue un facteur essentiel de succès commercial dans tous les secteurs. Cependant, si les données ne sont pas analysées assez rapidement, les bénéfices de big data seront limités ou même perdus. Malgré l’existence de nombreux systèmes modernes d’analyse de données à grande échelle, la préparation des données est le processus le plus long de l’analyse des données, n’a pas encore reçu suffisamment d’attention. Dans cette thèse, nous étudions le problème de la façon d’accélérer la préparation des données pour le big data d’analyse. En particulier, nous nous concentrons sur deux grandes étapes de préparation des données, le chargement des données et le nettoyage des données. Comme première contribution de cette thèse, nous concevons DiNoDB, un système SQL-on-Hadoop qui réalise l’exécution de requêtes à vitesse interactive sans nécessiter de chargement de données. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de données et nécessitent en même temps des analyses interactives ad hoc efficaces sur les données temporaires générées dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, nécessitant de charger l’ensemble des données temporaires pour obtenir des requêtes interactives. En revanche, DiNoDB évite la phase coûteuse de chargement et de transformation des données. L’innovation importante de DiNoDB est d’intégrer à la phase de traitement par lots la création de métadonnées que DiNoDB exploite pour accélérer les requêtes interactives. La deuxième contribution est un système de flux distribué de nettoyage de données, appelé Bleach. Les approches de nettoyage de données évolutives existantes s’appuient sur le traitement par lots pour améliorer la qualité des données, qui demandent beaucoup de temps. Nous ciblons le nettoyage des données de flux dans lequel les données sont nettoyées progressivement en temps réel. Bleach est le premier système de nettoyage qualitatif de données de flux, qui réalise à la fois la détection des violations en temps réel et la réparation des données sur un flux de données sale. Il s’appuie sur des structures de données efficaces, compactes et distribuées pour maintenir l’état nécessaire pour nettoyer les données et prend également en charge la dynamique des règles. Nous démontrons que les deux systèmes résultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avancées dans nos évaluations expérimentales, et peuvent aider les chercheurs à réduire considérablement leur temps consacré à la préparation des données
We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation
APA, Harvard, Vancouver, ISO, and other styles
4

Tian, Yongchao. "Accéler la préparation des données pour l'analyse du big data." Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0017.

Full text
Abstract:
Nous vivons dans un monde de big data, où les données sont générées en grand volume, grande vitesse et grande variété. Le big data apportent des valeurs et des avantages énormes, de sorte que l’analyse des données est devenue un facteur essentiel de succès commercial dans tous les secteurs. Cependant, si les données ne sont pas analysées assez rapidement, les bénéfices de big data seront limités ou même perdus. Malgré l’existence de nombreux systèmes modernes d’analyse de données à grande échelle, la préparation des données est le processus le plus long de l’analyse des données, n’a pas encore reçu suffisamment d’attention. Dans cette thèse, nous étudions le problème de la façon d’accélérer la préparation des données pour le big data d’analyse. En particulier, nous nous concentrons sur deux grandes étapes de préparation des données, le chargement des données et le nettoyage des données. Comme première contribution de cette thèse, nous concevons DiNoDB, un système SQL-on-Hadoop qui réalise l’exécution de requêtes à vitesse interactive sans nécessiter de chargement de données. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de données et nécessitent en même temps des analyses interactives ad hoc efficaces sur les données temporaires générées dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, nécessitant de charger l’ensemble des données temporaires pour obtenir des requêtes interactives. En revanche, DiNoDB évite la phase coûteuse de chargement et de transformation des données. L’innovation importante de DiNoDB est d’intégrer à la phase de traitement par lots la création de métadonnées que DiNoDB exploite pour accélérer les requêtes interactives. La deuxième contribution est un système de flux distribué de nettoyage de données, appelé Bleach. Les approches de nettoyage de données évolutives existantes s’appuient sur le traitement par lots pour améliorer la qualité des données, qui demandent beaucoup de temps. Nous ciblons le nettoyage des données de flux dans lequel les données sont nettoyées progressivement en temps réel. Bleach est le premier système de nettoyage qualitatif de données de flux, qui réalise à la fois la détection des violations en temps réel et la réparation des données sur un flux de données sale. Il s’appuie sur des structures de données efficaces, compactes et distribuées pour maintenir l’état nécessaire pour nettoyer les données et prend également en charge la dynamique des règles. Nous démontrons que les deux systèmes résultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avancées dans nos évaluations expérimentales, et peuvent aider les chercheurs à réduire considérablement leur temps consacré à la préparation des données
We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation
APA, Harvard, Vancouver, ISO, and other styles
5

Manad, Otman. "Nettoyage de corpus web pour le traitement automatique des langues." Thesis, Paris 8, 2018. http://www.theses.fr/2018PA080011.

Full text
Abstract:
Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent
Corpora are the main material of computer linguistics and natural language processing. Not many languages have corpora made from web resources (forums, blogs, etc.), even those that do not have other resources. Web resources contain lots of noise (menus, ads, etc.). Filtering boilerplate and repetitive data requires a large-scale manual cleaning by the researcher.This thesis presents an automatic system that construct web corpus with a low level of noise.It consists of three modules : (a) one for building corpora in any language and any type of data, intended to be collaborative and preserving corpus history; (b) one for crawling web forums and blogs; (c) one for extracting relevant data using clustering techniques with different distances, from the structure of web page.The system is evaluated in terms of the efficacy of noise filtering and of computing time. Our experiments, made on four languages, are evaluated using our own gold standard corpus. To measure quality, we use recall, precision and F-measure. Feature-distance and Jaro distance give the best results, but not in the same contexts, feature-distance having the best average quality.We compare our method with three methods dealing with the same problem, Nutch, BootCat and JusText. The performance of our system is better as regards the extraction quality, even if for computing time, Nutch and BootCat dominate
APA, Harvard, Vancouver, ISO, and other styles
6

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094/document.

Full text
Abstract:
La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés
Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns
APA, Harvard, Vancouver, ISO, and other styles
7

Zaidi, Houda. "Amélioration de la qualité des données : correction sémantique des anomalies inter-colonnes." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1094.

Full text
Abstract:
La qualité des données présente un grand enjeu au sein d'une organisation et influe énormément sur la qualité de ses services et sur sa rentabilité. La présence de données erronées engendre donc des préoccupations importantes autour de cette qualité. Ce rapport traite la problématique de l'amélioration de la qualité des données dans les grosses masses de données. Notre approche consiste à aider l'utilisateur afin de mieux comprendre les schémas des données manipulées, mais aussi définir les actions à réaliser sur celles-ci. Nous abordons plusieurs concepts tels que les anomalies des données au sein d'une même colonne, et les anomalies entre les colonnes relatives aux dépendances fonctionnelles. Nous proposons dans ce contexte plusieurs moyens de pallier ces défauts en nous intéressons à la performance des traitements ainsi opérés
Data quality represents a major challenge because the cost of anomalies can be very high especially for large databases in enterprises that need to exchange information between systems and integrate large amounts of data. Decision making using erroneous data has a bad influence on the activities of organizations. Quantity of data continues to increase as well as the risks of anomalies. The automatic correction of these anomalies is a topic that is becoming more important both in business and in the academic world. In this report, we propose an approach to better understand the semantics and the structure of the data. Our approach helps to correct automatically the intra-column anomalies and the inter-columns ones. We aim to improve the quality of data by processing the null values and the semantic dependencies between columns
APA, Harvard, Vancouver, ISO, and other styles
8

Cappuzzo, Riccardo. "Deep learning models for tabular data curation." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS047.

Full text
Abstract:
La conservation des données est un sujet omniprésent et de grande envergure, qui touche tous les domaines, du monde universitaire à l'industrie. Les solutions actuelles reposent sur le travail manuel des utilisateurs du domaine, mais elles ne sont pas adaptées. Nous étudions comment appliquer l'apprentissage profond à la conservation des données tabulaires. Nous concentrons notre travail sur le développement de systèmes de curation de données non supervisés et sur la conception de systèmes de curation qui modélisent intrinsèquement les valeurs catégorielles dans leur forme brute. Nous implémentons d'abord EmbDI pour générer des embeddings pour les données tabulaires, et nous traitons les tâches de résolution d'entités et de correspondance de schémas. Nous passons ensuite au problème de l'imputation des données en utilisant des réseaux neuronaux graphiques dans un cadre d'apprentissage multi-tâches appelé GRIMP
Data retention is a pervasive and far-reaching topic, affecting everything from academia to industry. Current solutions rely on manual work by domain users, but they are not adequate. We are investigating how to apply deep learning to tabular data curation. We focus our work on developing unsupervised data curation systems and designing curation systems that intrinsically model categorical values in their raw form. We first implement EmbDI to generate embeddings for tabular data, and address the tasks of entity resolution and schema matching. We then turn to the data imputation problem using graphical neural networks in a multi-task learning framework called GRIMP
APA, Harvard, Vancouver, ISO, and other styles
9

Cadot, Martine. "Extraire et valider les relations complexes en sciences humaines : statistiques, motifs et règles d'association." Phd thesis, Université de Franche-Comté, 2006. http://tel.archives-ouvertes.fr/tel-00594174.

Full text
Abstract:
Cette thèse concerne la fouille de données en sciences humaines. Cette branche récente de l'intelligence artificielle consiste en un ensemble de méthodes visant à extraire de la connaissance à partir de données stockées sur des supports informatiques. Parmi celles-ci, l'extraction de motifs et de règles d'association est une méthode de traitement des données qui permet de représenter de façon symbolique la structure des données, comme le font les méthodes statistiques classiques, mais qui, contrairement à celles-ci, reste opérationnelle en cas de données complexes, volumineuses. Toutefois ce modèle informatique des données, construit à partir de comptages de cooccurrences, n'est pas directement utilisable par les chercheurs en sciences humaines : il est essentiellement dédié aux données dichotomiques (vrai/faux), ses résultats directs, très morcelés, sont difficiles à interpréter, et sa validité peut paraître douteuse aux chercheurs habitués à la démarche statistique. Nous proposons des techniques que nous avons construites puis expérimentées sur des données réelles dans le but de réduire les difficultés d'utilisation que nous venons de décrire : 1) un test de randomisation à base d'échanges en cascade dans la matrice sujets x propriétés permet d'obtenir les liaisons statistiquement significatives entre deux propriétés, 2) une extension floue de la méthode d'extraction classique des motifs, qui produit des règles d'association floues généralisant les règles binaires et proches des règles floues définies par les chercheurs poursuivant les travaux de Zadeh, 3) MIDOVA, un algorithme extrayant les interactions n-aires entre variables - problème peu connu, peu abordé en informatique, et abordé avec de fortes limitations en statistiques - et 4) des méta-règles pour nettoyer le jeu de règles d'association de ses principales contradictions et redondances.
APA, Harvard, Vancouver, ISO, and other styles
10

Lemieux, Perreault Louis-Philippe. "Approches bio-informatiques appliquées aux technologies émergentes en génomique." Thèse, 2014. http://hdl.handle.net/1866/10884.

Full text
Abstract:
Les études génétiques, telles que les études de liaison ou d’association, ont permis d’acquérir une plus grande connaissance sur l’étiologie de plusieurs maladies affectant les populations humaines. Même si une dizaine de milliers d’études génétiques ont été réalisées sur des centaines de maladies ou autres traits, une grande partie de leur héritabilité reste inexpliquée. Depuis une dizaine d’années, plusieurs percées dans le domaine de la génomique ont été réalisées. Par exemple, l’utilisation des micropuces d’hybridation génomique comparative à haute densité a permis de démontrer l’existence à grande échelle des variations et des polymorphismes en nombre de copies. Ces derniers sont maintenant détectables à l’aide de micropuce d’ADN ou du séquençage à haut débit. De plus, des études récentes utilisant le séquençage à haut débit ont permis de démontrer que la majorité des variations présentes dans l’exome d’un individu étaient rares ou même propres à cet individu. Ceci a permis la conception d’une nouvelle micropuce d’ADN permettant de déterminer rapidement et à faible coût le génotype de plusieurs milliers de variations rares pour un grand ensemble d’individus à la fois. Dans ce contexte, l’objectif général de cette thèse vise le développement de nouvelles méthodologies et de nouveaux outils bio-informatiques de haute performance permettant la détection, à de hauts critères de qualité, des variations en nombre de copies et des variations nucléotidiques rares dans le cadre d’études génétiques. Ces avancées permettront, à long terme, d’expliquer une plus grande partie de l’héritabilité manquante des traits complexes, poussant ainsi l’avancement des connaissances sur l’étiologie de ces derniers. Un algorithme permettant le partitionnement des polymorphismes en nombre de copies a donc été conçu, rendant possible l’utilisation de ces variations structurales dans le cadre d’étude de liaison génétique sur données familiales. Ensuite, une étude exploratoire a permis de caractériser les différents problèmes associés aux études génétiques utilisant des variations en nombre de copies rares sur des individus non reliés. Cette étude a été réalisée avec la collaboration du Wellcome Trust Centre for Human Genetics de l’University of Oxford. Par la suite, une comparaison de la performance des algorithmes de génotypage lors de leur utilisation avec une nouvelle micropuce d’ADN contenant une majorité de marqueurs rares a été réalisée. Finalement, un outil bio-informatique permettant de filtrer de façon efficace et rapide des données génétiques a été implémenté. Cet outil permet de générer des données de meilleure qualité, avec une meilleure reproductibilité des résultats, tout en diminuant les chances d’obtenir une fausse association.
Genetic studies, such as linkage and association studies, have contributed greatly to a better understanding of the etiology of several diseases. Nonetheless, despite the tens of thousands of genetic studies performed to date, a large part of the heritability of diseases and traits remains unexplained. The last decade experienced unprecedented progress in genomics. For example, the use of microarrays for high-density comparative genomic hybridization has demonstrated the existence of large-scale copy number variations and polymorphisms. These are now detectable using DNA microarray or high-throughput sequencing. In addition, high-throughput sequencing has shown that the majority of variations in the exome are rare or unique to the individual. This has led to the design of a new type of DNA microarray that is enriched for rare variants that can be quickly and inexpensively genotyped in high throughput capacity. In this context, the general objective of this thesis is the development of methodological approaches and bioinformatics tools for the detection at the highest quality standards of copy number polymorphisms and rare single nucleotide variations. It is expected that by doing so, more of the missing heritability of complex traits can then be accounted for, contributing to the advancement of knowledge of the etiology of diseases. We have developed an algorithm for the partition of copy number polymorphisms, making it feasible to use these structural changes in genetic linkage studies with family data. We have also conducted an extensive study in collaboration with the Wellcome Trust Centre for Human Genetics of the University of Oxford to characterize rare copy number definition metrics and their impact on study results with unrelated individuals. We have conducted a thorough comparison of the performance of genotyping algorithms when used with a new DNA microarray composed of a majority of very rare genetic variants. Finally, we have developed a bioinformatics tool for the fast and efficient processing of genetic data to increase quality, reproducibility of results and to reduce spurious associations.
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Nettoyage des données"

1

"Nettoyage et découverte." In L'analyse des données de sondage avec SPSS, 47–66. Presses de l'Université du Québec, 2018. http://dx.doi.org/10.2307/j.ctv10qqx59.7.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Costanzo, Lucia. "Le nettoyage de données dans le processus de gestion des données de recherche." In La gestion des données de recherche dans le contexte canadien: un guide pour la pratique et l'apprentissage. Western University, Western Libraries, 2023. http://dx.doi.org/10.5206/rhbn7291.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Luo, Rong, and Berenica Vejvoda. "Nouvelles aventures en nettoyage des données: travailler avec des données dans Excel et R." In La gestion des données de recherche dans le contexte canadien: un guide pour la pratique et l'apprentissage. Western University, Western Libraries, 2023. http://dx.doi.org/10.5206/dpci3894.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography