Дисертації з теми "Synthetic datasets"
Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями
Ознайомтеся з топ-26 дисертацій для дослідження на тему "Synthetic datasets".
Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.
Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.
Переглядайте дисертації для різних дисциплін та оформлюйте правильно вашу бібліографію.
D'Agostino, Alessandro. "Automatic generation of synthetic datasets for digital pathology image analysis." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2020. http://amslaurea.unibo.it/21722/.
Повний текст джерелаHummel, Georg Verfasser], Peter [Akademischer Betreuer] [Stütz, and Paolo [Gutachter] Remagnino. "On synthetic datasets for development of computer vision algorithms in airborne reconnaissance applications / Georg Hummel ; Gutachter: Peter Stütz, Paolo Remagnino ; Akademischer Betreuer: Peter Stütz ; Universität der Bundeswehr München, Fakultät für Luft- und Raumfahrttechnik." Neubiberg : Universitätsbibliothek der Universität der Bundeswehr München, 2017. http://d-nb.info/1147386331/34.
Повний текст джерелаHummel, Georg [Verfasser], Peter [Akademischer Betreuer] [Gutachter] Stütz, and Paolo [Gutachter] Remagnino. "On synthetic datasets for development of computer vision algorithms in airborne reconnaissance applications / Georg Hummel ; Gutachter: Peter Stütz, Paolo Remagnino ; Akademischer Betreuer: Peter Stütz ; Universität der Bundeswehr München, Fakultät für Luft- und Raumfahrttechnik." Neubiberg : Universitätsbibliothek der Universität der Bundeswehr München, 2017. http://d-nb.info/1147386331/34.
Повний текст джерелаZhao, Amy(Xiaoyu Amy). "Learning distributions of transformations from small datasets for applied image synthesis." Thesis, Massachusetts Institute of Technology, 2019. https://hdl.handle.net/1721.1/128342.
Повний текст джерелаCataloged from PDF of thesis. "February 2020."
Includes bibliographical references (pages 75-91).
Much of the recent research in machine learning and computer vision focuses on applications with large labeled datasets. However, in realistic settings, it is much more common to work with limited data. In this thesis, we investigate two applications of image synthesis using small datasets. First, we demonstrate how to use image synthesis to perform data augmentation, enabling the use of supervised learning methods with limited labeled data. Data augmentation -- typically the application of simple, hand-designed transformations such as rotation and scaling -- is often used to expand small datasets. We present a method for learning complex data augmentation transformations, producing examples that are more diverse, realistic, and useful for training supervised systems than hand-engineered augmentation. We demonstrate our proposed augmentation method for improving few-shot object classification performance, using a new dataset of collectible cards with fine-grained differences. We also apply our method to medical image segmentation, enabling the training of a supervised segmentation system using just a single labeled example. In our second application, we present a novel image synthesis task: synthesizing time lapse videos of the creation of digital and watercolor paintings. Using a recurrent model of paint strokes and a novel training scheme, we create videos that tell a plausible visual story of the painting process.
by Amy (Xiaoyu) Zhao.
Ph. D.
Ph.D. Massachusetts Institute of Technology, Department of Electrical Engineering and Computer Science
He, Wenbin. "Exploration and Analysis of Ensemble Datasets with Statistical and Deep Learning Models." The Ohio State University, 2019. http://rave.ohiolink.edu/etdc/view?acc_num=osu1574695259847734.
Повний текст джерелаBartocci, John Timothy. "Generating a synthetic dataset for kidney transplantation using generative adversarial networks and categorical logit encoding." Bowling Green State University / OhioLINK, 2021. http://rave.ohiolink.edu/etdc/view?acc_num=bgsu1617104572023027.
Повний текст джерелаChoudhury, Ananya. "WiSDM: a platform for crowd-sourced data acquisition, analytics, and synthetic data generation." Thesis, Virginia Tech, 2016. http://hdl.handle.net/10919/72256.
Повний текст джерелаMaster of Science
Šlosár, Peter. "Generátor syntetické datové sady pro dopravní analýzu." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2014. http://www.nusl.cz/ntk/nusl-236021.
Повний текст джерелаOškera, Jan. "Detekce dopravních značek a semaforů." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2020. http://www.nusl.cz/ntk/nusl-432850.
Повний текст джерелаKola, Ramya Sree. "Generation of synthetic plant images using deep learning architecture." Thesis, Blekinge Tekniska Högskola, Institutionen för datavetenskap, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-18450.
Повний текст джерелаBaraheem, Samah Saeed. "Text to Image Synthesis via Mask Anchor Points and Aesthetic Assessment." University of Dayton / OhioLINK, 2020. http://rave.ohiolink.edu/etdc/view?acc_num=dayton158800567702413.
Повний текст джерелаArcidiacono, Claudio Salvatore. "An empirical study on synthetic image generation techniques for object detectors." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235502.
Повний текст джерелаKonvolutionella neurala nätverk är ett mycket kraftfullt verktyg för maskininlärning som överträffade andra tekniker inom bildigenkänning. Den största nackdelen med denna metod är den massiva mängd träningsdata som krävs, eftersom det är mycket arbetsintensivt att producera träningsdata för bildigenkänningsuppgifter. För att ta itu med detta problem har olika tekniker föreslagits för att generera syntetiska träningsdata automatiskt. Dessa syntetiska datagenererande tekniker kan grupperas i två kategorier: den första kategorin genererar syntetiska bilder med hjälp av datorgrafikprogram och CAD-modeller av objekten att känna igen; Den andra kategorin genererar syntetiska bilder genom att klippa objektet från en bild och klistra in det på en annan bild. Eftersom båda teknikerna har sina fördelar och nackdelar, skulle det vara intressant för industrier att undersöka mer ingående de båda metoderna. Ett vanligt fall i industriella scenarier är att upptäcka och klassificera objekt i en bild. Olika föremål som hänför sig till klasser som är relevanta i industriella scenarier är ofta oskiljbara (till exempel de är alla samma komponent). Av dessa skäl syftar detta avhandlingsarbete till att svara på frågan “Bland CAD-genereringsteknikerna, Cut-paste generationsteknikerna och en kombination av de två teknikerna, vilken teknik är mer lämplig för att generera bilder för träningsobjektdetektorer i industriellascenarier”. För att svara på forskningsfrågan föreslås två syntetiska bildgenereringstekniker som hänför sig till de två kategorierna. De föreslagna teknikerna är skräddarsydda för applikationer där alla föremål som tillhör samma klass är oskiljbara, men de kan också utökas till andra applikationer. De två syntetiska bildgenereringsteknikerna jämförs med att mäta prestanda hos en objektdetektor som utbildas med hjälp av syntetiska bilder på en testdataset med riktiga bilder. Föreställningarna för de två syntetiska datagenererande teknikerna som används för dataförökning har också uppmätts. De empiriska resultaten visar att CAD-modelleringstekniken fungerar väsentligt bättre än Cut-Paste-genereringstekniken, där syntetiska bilder är den enda källan till träningsdata (61% bättre), medan de två generationsteknikerna fungerar lika bra som dataförstoringstekniker. Dessutom visar de empiriska resultaten att modellerna som utbildats med bara syntetiska bilder utför nästan lika bra som modellen som utbildats med hjälp av riktiga bilder (7,4% sämre) och att förstora datasetet med riktiga bilder med hjälp av syntetiska bilder förbättrar modellens prestanda (9,5% bättre).
Pazderka, Radek. "Segmentace obrazových dat pomocí hlubokých neuronových sítí." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2019. http://www.nusl.cz/ntk/nusl-403816.
Повний текст джерелаDiffner, Fredrik, and Hovig Manjikian. "Training a Neural Network using Synthetically Generated Data." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280334.
Повний текст джерелаVid utvecklandet av maskininlärningsmodeller kan avsaknaden av ett tillräckligt stort dataset för träning utgöra ett problem. En vanlig lösning är att använda syntetiskt genererad data för att antingen utöka eller helt ersätta ett dataset med verklig data. Denna uppsats undersöker prestationen av en maskininlärningsmodell tränad på syntetisk data jämfört med samma modell tränad på verklig data. Detta applicerades på problemet att använda ett konvolutionärt neuralt nätverk för att tyda tecken i bilder från ”naturliga” miljöer. Ett syntetiskt dataset bestående av 1’240’000 samt två stycken dataset med tecken från bilder, Char74K och ICDAR2003, användes. Resultatet visar att en modell tränad på det syntetiska datasetet presterade ca 50% bättre än samma modell tränad på Char74K.
Klinkert, Rickard. "Uncertainty Analysis of Long Term Correction Methods for Annual Average Winds." Thesis, Umeå universitet, Institutionen för fysik, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-59690.
Повний текст джерелаFör att bygga en vindkraftspark är man i behov av att kartlägga vindresurserna i det aktuella området. Med hjälp av tidsserier från numeriska vädermodeller (NWP), globala assimileringsdatabaser och intilliggande observationer korrigeras de uppmätta vindhastigheterna och vindriktningarna för att motsvara långtidsvärdena av vindförhållandena. Dessa långtidskorrigeringsmetoder (LTC) genomförs generellt sett med hjälp av linjär regression i Mät-korrelera-predikera-metoden (MCP). Denna metod, och två andra metoder, Sektor-bin (SB) och Syntetiska tidsserier (ST), används i denna rapport för att utreda de osäkerheter som är knutna till långtidskorrigering.Det testområde som är valt för analys i denna rapport omfattas av Nordsjöregionen, med 22 meteorologiska väderobservationsstationer i Danmark, Norge och Sverige. Dessa stationer är till största del belägna till havs eller vid kusten. Tidsserierna som används täcker åttaårsperioden från 2002 till 2009, där det året med högst variabilitet i uppmätt vindhastighet, år 2007, används som den korta mätperiod som blir föremål för långtidskorrigeringen. De långa referensdataseten som använts är väderprediktionsmodellen WRF ( Weather Research and Forecast Model), baserad både på data från NCEP/FNL (National Centers for Environmental Prediciton Final Analysis) och ERA-Interim (ECMWF Interim Re-analysis). Dessutom används även data från MERRA (Modern Era Re-Analysis) och satellitobservationer från QuikSCAT. Långtidsperioden för alla dataset utom QuikSCAT omfattar samma period som observationsstationerna. QuikSCAT-datat som använts omfattar perioden 1 november 1999 till 31 oktober 2009.Analysen är indelad i tre delar. Inledningsvis behandlas osäkerheten som är kopplad till referensdatans ingående i långtidskorrigeringsmetoderna. Därefter analyseras osäkerhetens beroende av längden på den samtidiga datan i referens- och observationsdataseten. Slutligen utreds osäkerheten med hjälp av en icke-parametrisk metod, en s.k. Bootstrap: Osäkerheten i SB-metoden för en fast samtidig längd av tidsserierna från observationer och referensdatat uppskattas genom att skapa en generell modell som estimerar osäkerheten i estimatet.Resultatet visar att skillnaden när man använder WRF-modellen baserad både på NCEP/FNL och ERA-Interim i långtidskorrigeringen är marginell och avviker inte markant i förhållande till stationsobservationerna. Resultatet pekar också på att MERRA-datat kan användas som långtidsreferensdataset i långtidsdkorrigeringsmetoderna. Däremot ger inte QuikSCAT-datasetet tillräckligt med information för att avgöra om det går att använda i långtidskorrigeringsmetoderna. Därför föreslås ett annat tillvägagångssätt än stationsspecifika koordinater vid val av koordinater lämpliga för långtidskorrigering. Ytterligare ett resultat vid analys av långtidskorrigeringsmetoden SB, visar att metoden är robust mot variation i korrelationskoefficienten.Rörande osäkerhetens beroende av längden på samtidig data visar resultaten att en sammanhängande mätperiod på ett år eller mer ger den lägsta osäkerheten i årsmedelvindsestimatet, i förhållande till mätningar av kortare slag. Man kan även se att standardavvikelsen av de långtidskorrigerade medelvärdena avtar med längden på det samtidiga datat. Den implementerade ickeparametriska metoden Bootstrap, som innefattar sampling med återläggning, kan inte estimera osäkerheten till fullo. Däremot ger den lovande resultat som föreslås för vidare arbete.
Silva, Bárbara Sofia Lopez de Carvalho Ferreira da. "Automatic Generation of Synthetic Website Wireframe Datasets from Source Code." Master's thesis, 2020. https://hdl.handle.net/10216/128542.
Повний текст джерелаSilva, Bárbara Sofia Lopez de Carvalho Ferreira da. "Automatic Generation of Synthetic Website Wireframe Datasets from Source Code." Dissertação, 2020. https://hdl.handle.net/10216/128542.
Повний текст джерелаDrechsler, Jörg [Verfasser]. "Generating multiply imputed synthetic datasets : theory and implementation / vorgelegt von Jörg Drechsler." 2010. http://d-nb.info/1000445984/34.
Повний текст джерелаLobo, João Pedro Pereira. "G-Tric: enhancing triclustering evaluation using three-way synthetic datasets with ground truth." Master's thesis, 2020. http://hdl.handle.net/10451/48350.
Повний текст джерелаThree-dimensional datasets, or three-way data, started to gain popularity due to their increasing capacity to describe inherently multivariate and temporal events, such as biological responses, social interactions along time, urban dynamics, or complex geophysical phenomena. Triclustering, subspace clustering of three-way data, enables the discovery of patterns corresponding to data subspaces (triclusters) with values correlated across the three dimensions (observations _ features _ contexts). With an increasing number of algorithms being proposed, effectively comparing them with state-of-the-art algorithms is paramount.These comparisons are usually performed using real data, without a known ground-truth, thus limiting the assessments. In this context, we propose a synthetic data generator, G-Tric, allowing the creation of synthetic datasets with configurable properties and the possibility to plant triclusters. The generator is prepared to create datasets resembling real three-way data from biomedical and social data domains, with the additional advantage of further providing the ground truth (triclustering solution) as output. G-Tric can replicate real-world datasets and create new ones that match researchers’ needs across several properties, including data type (numeric or symbolic), dimension, and background distribution. Users can tune the patterns and structure that characterize the planted triclusters (subspaces) and how they interact (overlapping). Data quality can also be controlled by defining the number of missing values, noise, and errors. Furthermore, a benchmark of datasets resembling real data is made available, together with the corresponding triclustering solutions (planted triclusters) and generating parameters. Triclustering evaluation using G-Tric provides the possibility to combine both intrinsic and extrinsic metrics to compare solutions that produce more reliable analyses. A set of predefined datasets, mimicking widely used three-way data and exploring crucial properties was generated and made available, highlighting G-Tric’s potential to advance triclustering state-of-the-art by easing the process of evaluating the quality of new triclustering approaches. Besides reviewing the current state-of-the-art regarding triclustering approaches, comparison studies and evaluation metrics, this work also analyzes how the lack of frameworks to generate synthetic data influences existent evaluation methodologies, limiting the scope of performance insights that can be extracted from each algorithm. As well as exemplifying how the set of decisions made on these evaluations can impact the quality and validity of those results. Alternatively, a different methodology that takes advantage of synthetic data with ground truth is presented. This approach, combined with the proposal of an extension to an existing clustering extrinsic measure, enables to assess solutions’ quality under new perspectives.
Su, Hua. "Large-scale snowpack estimation using ensemble data assimilation methodologies, satellite observations and synthetic datasets." 2009. http://hdl.handle.net/2152/7679.
Повний текст джерелаtext
Tsai, Meng-Fong, and 蔡孟峰. "Application and Study of imbalanced datasets base on Top-N Reverse k-Nearest Neighbor (TRkNN) coupled with Synthetic Minority Over-Sampling Technique (SMOTE)." Thesis, 2017. http://ndltd.ncl.edu.tw/handle/38104987938865711006.
Повний текст джерела國立中興大學
資訊科學與工程學系
105
The imbalanced classification means the dataset has an unequal class distribution among its population. For a given dataset without considering the imbalanced issue, most classification methods often predict the high accuracy for the majority class, but significantly low accuracy for the minority class. The first task in this dissertation is to provide an efficient algorithm, Top-N Reverse k-Nearest Neighbor (TRkNN), coupled with Synthetic Minority Over-Sampling TEchnique (SMOTE) to overcome this issue for several imbalanced datasets from famous UCI datasets. To investigate the proposed algorithm, it was applied into different classified methods, such as Logistic regression, C4.5, SVM, and BPNN. In addition, this research also adopted different distance metrics to classify the same UCI datasets. The empirical results illustrated that the Euclidean distance and Manhattan distance not only perform higher percentage of accuracy rate, but also show greater computational efficiency than the Chebyshev distance and Cosine distance. Therefore, the TRkNN and SMOTE based algorithm could be widely used to handle the imbalanced datasets and how to choose the suitable distance metrics can be as the reference for the future researches. Research into cancer prediction has applied various machine learning algorithms, such as neural networks, genetic algorithms, and particle swarm optimization, to find the key to classifying illness or cancer properties or to adapt traditional statistical prediction models to effectively differentiate between different types of cancers, and thus build prediction models that can allow for early detection and treatment. Training data from existing patients is used to establish models to predict the classification accuracy of new patient samples. This issue has attracted considerable attention in the field of data mining, and scholars have proposed various methods (e.g., random sampling and feature selection) to address category imbalances and achieve a re-balanced class distribution, thus improving the effectiveness of classifiers with limited data. Although resampling methods can quickly deal with the problem of unbalanced samples, they give more importance to the data in the majority class, and neglect potentially important data in the minority class, thus limiting the effectiveness of classification. Based on patterns discovered in imbalanced medical data sets, the second task in this dissertation is to use the synthetic minority oversampling technique to improve imbalanced data set issues. In addition, this research also compares the resampling performance of various methods based on machine learning, soft-computing, and bio-inspired computing, using three UCI medical data sets.
RUSSO, PAOLO. "Broadening deep learning horizons: models for RGB and depth images adaptation." Doctoral thesis, 2020. http://hdl.handle.net/11573/1365047.
Повний текст джерелаShu-WeiLiao and 廖書緯. "A Local Information Based Synthetic Minority Oversampling Technique for Imbalanced Dataset Learning." Thesis, 2019. http://ndltd.ncl.edu.tw/handle/5mdht9.
Повний текст джерела國立成功大學
工業與資訊管理學系
107
A dataset is imbalanced if the classes are not approximately equally represented. Data mining on imbalanced datasets receives more and more attentions in recent years. The class imbalanced problem occurs when there’s just few number of sample in one classes comparing to other classes. The SMOTE : Synthetic Minority Over-Sampling Technique is an effective method to solve imbalanced learning problem. The way is to take one of the minority sample as the seed sample, and find the minority sample nearby as the selected sample. After finding seed sample and selected sample, we generate virtual sample between two minority samples. Therefore, in this paper we consider the influence between majority samples and the selected sample and the influence between minority samples and the selected sample. This study develops a new sample-generating procedure by local majority class information and local minority class information. Four datasets taken from UCI Machine Learning Repository in experiments. We compare the proposed method with SMOTE and other extension version including Borderline SMOTE1(B1-SMOTE), Safe-Level SMOTE(SL-SMOTE), Local-Neighborhood SMOTE(LN-SMOTE), and ADASYN. The result shows that the proposed method achieve better classifier performance for the minority class than other methods after examined the data sets with C4.5 decision trees.
Foroozandeh, Mehdi. "GAN-Based Synthesis of Brain Tumor Segmentation Data : Augmenting a dataset by generating artificial images." Thesis, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-169863.
Повний текст джерелаDale, Ashley S. "3D Object Detection Using Virtual Environment Assisted Deep Network Training." Thesis, 2020. http://hdl.handle.net/1805/24756.
Повний текст джерелаAn RGBZ synthetic dataset consisting of five object classes in a variety of virtual environments and orientations was combined with a small sample of real-world image data and used to train the Mask R-CNN (MR-CNN) architecture in a variety of configurations. When the MR-CNN architecture was initialized with MS COCO weights and the heads were trained with a mix of synthetic data and real world data, F1 scores improved in four of the five classes: The average maximum F1-score of all classes and all epochs for the networks trained with synthetic data is F1∗ = 0.91, compared to F1 = 0.89 for the networks trained exclusively with real data, and the standard deviation of the maximum mean F1-score for synthetically trained networks is σ∗ = 0.015, compared to σ_F1 = 0.020 for the networks trained exclusively with real F1 data. Various backgrounds in synthetic data were shown to have negligible impact on F1 scores, opening the door to abstract backgrounds and minimizing the need for intensive synthetic data fabrication. When the MR-CNN architecture was initialized with MS COCO weights and depth data was included in the training data, the net- work was shown to rely heavily on the initial convolutional input to feed features into the network, the image depth channel was shown to influence mask generation, and the image color channels were shown to influence object classification. A set of latent variables for a subset of the synthetic datatset was generated with a Variational Autoencoder then analyzed using Principle Component Analysis and Uniform Manifold Projection and Approximation (UMAP). The UMAP analysis showed no meaningful distinction between real-world and synthetic data, and a small bias towards clustering based on image background.
(8771429), Ashley S. Dale. "3D OBJECT DETECTION USING VIRTUAL ENVIRONMENT ASSISTED DEEP NETWORK TRAINING." Thesis, 2021.
Знайти повний текст джерелаAn RGBZ synthetic dataset consisting of five object classes in a variety of virtual environments and orientations was combined with a small sample of real-world image data and used to train the Mask R-CNN (MR-CNN) architecture in a variety of configurations. When the MR-CNN architecture was initialized with MS COCO weights and the heads were trained with a mix of synthetic data and real world data, F1 scores improved in four of the five classes: The average maximum F1-score of all classes and all epochs for the networks trained with synthetic data is F1∗ = 0.91, compared to F1 = 0.89 for the networks trained exclusively with real data, and the standard deviation of the maximum mean F1-score for synthetically trained networks is σ∗ F1 = 0.015, compared to σF 1 = 0.020 for the networks trained exclusively with real data. Various backgrounds in synthetic data were shown to have negligible impact on F1 scores, opening the door to abstract backgrounds and minimizing the need for intensive synthetic data fabrication. When the MR-CNN architecture was initialized with MS COCO weights and depth data was included in the training data, the net- work was shown to rely heavily on the initial convolutional input to feed features into the network, the image depth channel was shown to influence mask generation, and the image color channels were shown to influence object classification. A set of latent variables for a subset of the synthetic datatset was generated with a Variational Autoencoder then analyzed using Principle Component Analysis and Uniform Manifold Projection and Approximation (UMAP). The UMAP analysis showed no meaningful distinction between real-world and synthetic data, and a small bias towards clustering based on image background.