Dissertations / Theses on the topic 'Learning statistics'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Learning statistics.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Zhang, Bo. "Machine Learning on Statistical Manifold." Scholarship @ Claremont, 2017. http://scholarship.claremont.edu/hmc_theses/110.
Full textThayne, Jeffrey L. "Making Statistics Matter: Using Self-data to Improve Statistics Learning." DigitalCommons@USU, 2016. https://digitalcommons.usu.edu/etd/5214.
Full textChoy, Ko-leung Tyrone. "An investigation on the learning of statistics with MINITAB." Hong Kong : University of Hong Kong, 1998. http://sunzi.lib.hku.hk/hkuto/record.jsp?B2005788X.
Full textBonneau, Maxime. "Reinforcement Learning for 5G Handover." Thesis, Linköpings universitet, Statistik och maskininlärning, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-140816.
Full textWong, Sik-kwan Francis. "Outcome of a web-based statistic laboratory for teaching and learning of medical statistics." Click to view the E-thesis via HKUTO, 2009. http://sunzi.lib.hku.hk/hkuto/record/B43251687.
Full textSaive, Yannick. "DirCNN: Rotation Invariant Geometric Deep Learning." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252573.
Full textNyligen har ämnet geometrisk deep learning presenterat ett nytt sätt för maskininlärningsalgoritmer att arbeta med punktmolnsdata i dess råa form.Banbrytande arkitekturer som PointNet och många andra som byggt på dennes framgång framhåller vikten av invarians under inledande datatransformationer. Sådana transformationer inkluderar skiftning, skalning och rotation av punktmoln i ett tredimensionellt rum. Precis som vi önskar att klassifierande maskininlärningsalgoritmer lyckas identifiera en uppochnedvänd hund som en hund vill vi att våra geometriska deep learning-modeller framgångsrikt ska kunna hantera transformerade punktmoln. Därför använder många modeller en inledande datatransformation som tränas som en del av ett neuralt nätverk för att transformera punktmoln till ett globalt kanoniskt rum. Jag ser tillkortakommanden i detta tillgångavägssätt eftersom invariansen är inte fullständigt garanterad, den är snarare approximativ. För att motverka detta föreslår jag en lokal deterministisk transformation som inte måste läras från datan. Det nya lagret i det här projektet bygger på Edge Convolutions och döps därför till DirEdgeConv, namnet tar den riktningsmässiga invariansen i åtanke. Lagret ändras en aning för att introducera ett nytt lager vid namn DirSplineConv. Dessa lager sätts ihop i olika modeller som sedan jämförs med sina efterföljare på samma uppgifter för att ge en rättvis grund för att jämföra dem. Resultaten är inte lika bra som toppmoderna resultat men de är ändå tillfredsställande. Jag tror även resultaten kan förbättas genom att förbättra inlärningshastigheten och dess schemaläggning. I ett experiment där ablation genomförs på de nya lagren ser vi att lagrens huvudkoncept förbättrar resultaten överlag.
Sandberg, Martina. "Credit Risk Evaluation using Machine Learning." Thesis, Linköpings universitet, Statistik och maskininlärning, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-138968.
Full textVallin, Simon. "Small Cohort Population Forecasting via Bayesian Learning." Thesis, KTH, Matematisk statistik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209274.
Full textGenom att använda en mängd av distributionella antaganden om de demografiska processerna födsel, dödsfall, utflyttning och inflyttning har vi byggt ett stokastiskt ramverk för att modellera befolkningsförändringar. Ramverket kan sammanfattas som ett Bayesianskt nätverk och för detta nätverk introduceras tekniker för att skatta parametrar i denna uppsats. Födsel, dödsfall och utflyttning modelleras av en hierarkisk beta-binomialmodell där parametrarnas posteriorifördelning kan skattas analytiskt från data. För inflyttning används en regressionsmodell av Poissontyp där parametervärdenas posteriorifördelning måste skattas numeriskt. Vi föreslår en implementation av Metropolis-Hastingsalgoritmen för detta. Klassificering av subpopulationer hos de inflyttande sker via en hierarkisk Dirichlet-multinomialmodell där parameterskattning sker analytiskt. Ramverket användes för att göra prognoser för tidigare demografisk data, vilka validerades med de faktiska utfallen. En av modellens huvudsakliga styrkor är att kunna skatta en prediktiv fördelning för demografisk data, vilket ger en mer nyanserad pronos än en enkel maximum-likelihood-skattning.
黃式鈞 and Sik-kwan Francis Wong. "Outcome of a web-based statistic laboratory for teaching and learning of medical statistics." Thesis, The University of Hong Kong (Pokfulam, Hong Kong), 2009. http://hub.hku.hk/bib/B43251687.
Full textRYSZ, TERI. "METACOGNITION IN LEARNING ELEMENTARY PROBABILITY AND STATISTICS." University of Cincinnati / OhioLINK, 2004. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1099248340.
Full textLundell, Jill F. "Tuning Hyperparameters in Supervised Learning Models and Applications of Statistical Learning in Genome-Wide Association Studies with Emphasis on Heritability." DigitalCommons@USU, 2019. https://digitalcommons.usu.edu/etd/7594.
Full textThayne, Jeffrey L. "Making statistics matter| Self-data as a possible means to improve statistics learning." Thesis, Utah State University, 2017. http://pqdtopen.proquest.com/#viewpdf?dispub=10250713.
Full textResearch has demonstrated that well into their undergraduate and even graduate education, learners often struggle to understand basic statistical concepts, fail to see their relevance in their personal and professional lives, and often treat them as little more than mere mathematics exercises. Undergraduate learners often see statistical concepts as means to passing exams, completing required courses, and moving on with their degree, and not as instruments of inquiry that can illuminate their world in new and useful ways.
This study explored ways help learners in an undergraduate learning context to treat statistical inquiry as mattering in a practical research context, by inviting them to ask questions about and analyze large, real, messy datasets that they have collected about their own personal lives (i.e., self -data). This study examined the conditions under which such an intervention might (and might not) successfully lead to a greater sense of the relevance of statistics to undergraduate learners. The goal is to place learners in a context where their relationship with data analysis can more closely mimic that of disciplinary professionals than that of students with homework; that is, where they are illuminating something about their world that concerns them for reasons beyond the limited concerns of the classroom.
The study revealed five themes in the experiences of learners working with self-data that highlight contexts in which data-analysis can be made to matter to learners (and how self-data can make that more likely): learners must be able to form expectations of the data, whether based on their own experiences or external benchmarks; the data should have variation to account for; the learners should treat the ups and downs of the data as more or less preferable in some way; the data should address or related to ongoing projects or concerns of the learner; and finally, learners should be able to investigate quantitative or qualitative covariates of their data. In addition, narrative analysis revealed that learners using self-data treated data analysis as more than a mere classroom exercise, but as exercises in inquiry and with an invested engagement that mimicked (in some ways) that of a disciplinary professional.
Neykov, Matey. "Three Aspects of Biostatistical Learning Theory." Thesis, Harvard University, 2015. http://nrs.harvard.edu/urn-3:HUL.InstRepos:17467395.
Full textBiostatistics
Sergue, Marie. "Customer Churn Analysis and Prediction using Machine Learning for a B2B SaaS company." Thesis, KTH, Matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-269540.
Full textUnder det senaste decenniet har många tjänster digitaliserats och data blivit mer och mer tillgängliga, enkla att lagra och bearbeta med syftet att förstå kundbeteende. För att kunna vara ledande inom sina branscher måste prenumerationsbaserade företag fokusera på kundrelationshantering och i synnerhet churn management, det vill säga förståelse för hur kunder avbryter sin prenumeration. I denna uppsats utförs kärnanalys på verkliga data från ett SaaS-företag (software as a service) som säljer ett avancerat molnbaserat företagstelefonsystem, Aircall. Denna fallstudie är speciell på så sätt att den tillgängliga datamängden består av månatlig kunddata med en mycket ojämn fördelning: en stor majoritet av kunderna avbryter inte sina prenumerationer. Därför undersöks flera metoder för att minska effekten av denna obalans, samtidigt som de förblir så nära den verkliga världen och den tidsmässiga ramen. Dessa metoder inkluderar översampling och undersampling (SMOTE och Tomeks länk) och korsvalidering av tidsserier. Sedan används logistisk regression och random forests i syfte att både förutsäga och förklara prenumerationsbortfall. Den icke-linjära metoden presterade bättre än logistisk regression, vilket tyder på en begränsning hos linjära modeller i vårt användningsfall. Dessutom ger blandning av översampling med undersampling bättre prestanda när det gäller precision och återkoppling. Korsvalidering av tidsserier är också en effektiv metod för att förbättra modellens prestanda. Sammantaget är den resulterande modellen mer användbar för att förklara bortfall än att förutsäga dessa. Med hjälp av modellen kunde vissa faktorer, främst relaterade till produktanvändning, som påverkar bortfallet identifieras.
Meister-Emerich, Keren A. "Analysis and evaluation of learning objects for use in an introductory statistics course." Laramie, Wyo. : University of Wyoming, 2008. http://proquest.umi.com/pqdweb?did=1594494281&sid=1&Fmt=2&clientId=18949&RQT=309&VName=PQD.
Full textGardner, Kimberly D. "Investigating secondary school students' experience of learning statistics." unrestricted, 2007. http://etd.gsu.edu/theses/available/etd-12032007-153308/.
Full textTitle from file title page. Christine Thomas, committee chair; Stephen Harmon, Pier Junor-Clark, Lynn Stallings, committee members. Electronic text (122 p.) : digital, PDF file. Description based on contents viewed August 11, 2008. Includes bibliographical references (p. 109-115).
Gardner, Kimberly D. "Investigating Secondary School Students' Experience of Learning Statistics." Digital Archive @ GSU, 2008. http://digitalarchive.gsu.edu/msit_diss/30.
Full textO'Donohue, Michael G. "The teaching and learning of statistics in psychology." Thesis, Queen's University Belfast, 1996. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.286861.
Full textMantooth, Renae. "Learning Spaces and Self-Efficacy in Undergraduate Statistics." UKnowledge, 2017. http://uknowledge.uky.edu/edp_etds/57.
Full textSmith, Tamarah. "Factors Related to Undergraduate Psychology Majors Learning Statistics." Diss., Temple University Libraries, 2013. http://cdm16002.contentdm.oclc.org/cdm/ref/collection/p245801coll10/id/216603.
Full textPh.D.
Factors Related to Undergraduate Psychology Majors Learning Statistics Tamarah Faye Smith Doctor of Philosophy: Educational Psychology Major Advisor: Dr. Frank Farley The American Psychological Association (APA) has outlined goals for psychology undergraduates. These goals are aimed at several objectives including the need to build skills for interpreting and conducting psychological research (APA, 2007). These skills allow psychologists to conduct research that is covered in the media (Farley et al. 2009) and influences policy and law (Fischer, Stein & Heikkinen, 2009; Steinberg, Cauffman, Woolard, Graham & Banich, 2009a; Steinberg, Cauffman, Woolard, Graham & Banich, 2009b). One of the fundamental courses required for building these skills is statistics, a course that begins at the undergraduate level. Research has suggested that performance after completing statistics courses is weak for many students (Garfield, 2003; Hirsch & O'Donnell, 2001; Konold et al. 1993; Mulhern & Wylie, 2005; Schau & Mattern, 1997). The current study examined factors that may be related to performance on a statistical test. A sample of 231 students enrolled in or having already completed a statistics course for psychology majors completed a statistical skill questionnaire, built by the author, to measure performance with four APA outlined goals. To measure student attitudes the Survey of Attitudes Toward Statistics (SATS-36; Schau, 2003) was completed with adapted questions to measure perceived attitudes of peers and faculty toward statistics. Finally, questions pertaining to classroom techniques and content areas covered were assessed. Building off of social cognitive theory (SCT; Bandura, 1986) and expectancy-value theory (Eccles & Wigfield, 2002), it was expected that lower attitudes, such as low value and low interest, among the students and those perceived to be held by faculty and peers would be related to lower performance on the statistical test. A series of linear regressions were conducted and revealed no significant relationship between perceived faculty attitudes and performance. Students' own liking and positive affect ratings were positive predictors of performance indicating a gain of 3-4% on the statistical test. However, an interesting negative relationship emerged with respect to students' value of statistics and peer interest scores where performance on the statistical test decreased as value and peer interest increased. This may be demonstrating issues pertaining to the SATS-36 validity when measuring students' value as well as issues with the items created to measure perceived peer interest. The results of a factor analysis on perceived attitude measures for peers and faculty suggest that the need for more items is necessary, particularly for faculty attitudes. Finally, this study provides a first look at the performance of a sample of psychology students with APA goals for quantitative reasoning. Results showed that students performed best at reading basic descriptive statistics (M=74.5%), and worst when choosing statistical tests for a given research hypothesis (M=30%). Performance on questions pertaining to confidence intervals (M=38%) and discriminating between statistical and practical significance (M=39%) was also low. Future research can address limitations of this study by expanding the sample to include a broader range of psychology undergraduates and including additional items for measuring perceived attitudes. Other methodological approaches, such as experimental design and directly measuring faculty attitudes, should also be considered. Finally, further research and replication are necessary to determine if scores on the statistical test will continue to be low with other samples and varying question formats. These results can then be used to generate conversation about why and how students are, or are not, learning the appropriate quantitative skills.
Temple University--Theses
Gordon, Susan Eve. "Understanding Students Learning Statistics: An Activity Theory Approach." Thesis, The University of Sydney, 1998. http://hdl.handle.net/2123/353.
Full textGordon, Susan Eve. "Understanding Students Learning Statistics: An Activity Theory Approach." University of Sydney. School of Development and Learning, 1998. http://hdl.handle.net/2123/353.
Full textLindberg, Jesper. "Simulation driven reinforcement learning : Improving synthetic enemies in flight simulators." Thesis, Linköpings universitet, Statistik och maskininlärning, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-166593.
Full textRydén, Otto. "Statistical learning procedures for analysis of residential property price indexes." Thesis, KTH, Matematisk statistik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-207946.
Full textBostadsprisindex används för att undersöka prisutvecklingen för bostäder över tid. Att modellera ett bostadsprisindex är inte alltid lätt då bostäder är en heterogen vara. Denna uppsats analyserar skillnaden mellan de tvåhuvudsakliga hedoniska indexmodelleringsmetoderna, som är, hedoniska tiddummyvariabelmetoden och den hedoniska imputeringsmetoden. Dessa metoder analyseras med en statistisk inlärningsprocedur gjord utifrån ett regressionsperspektiv, som inkluderar analys utav minsta kvadrats-regression, Huberregression, lassoregression, ridgeregression och principal componentregression. Denna analys är baserad på ca 56 000 lägenhetstransaktioner för lägenheter i Stockholm under perioden 2013-2016 och används för att modellera era versioner av ett bostadsprisindex. De modellerade bostadsprisindexen analyseras sedan med hjälp utav både kvalitativa och kvantitativa metoder inklusive en version av bootstrap för att räkna ut ett empiriskt konfidensintervall för bostadsprisindexen samt en medelfelsanalys av indexpunktskattningarna i varje tidsperiod. Denna analys visar att den hedoniska tid-dummyvariabelmetoden producerar bostadsprisindex med mindre varians och ger också robustare bostadsprisindex för en mindre datamängd. Denna uppsats visar också att användandet av robustare regressionsmetoder leder till stabilare bostadsprisindex som är mindre påverkade av extremvärden, därför rekommenderas robusta regressionsmetoder för en kommersiell implementering av ett bostadsprisindex.
Enver, Asad. "Modeling Trouble Ticket ResolutionTime Using Machine Learning." Thesis, Linköpings universitet, Statistik och maskininlärning, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-176779.
Full textRowan, Adriaan. "Unravelling black box machine learning methods using biplots." Master's thesis, Faculty of Science, 2019. http://hdl.handle.net/11427/31124.
Full textLeong, Jennifer. "High school students' attitudes and beliefs regarding statistics in a service-learning-based statistics course." unrestricted, 2006. http://etd.gsu.edu/theses/available/etd-11292006-140510/.
Full textTitle from title screen. Christine Thomas, committee chair; Joel Meyers, Draga Vidakovic, Steve Harmon, committee members. Electronic text (196 p.) : digital, PDF file. Description based on contents viewed July 31, 2007. Includes bibliographical references (p. 154-169).
Hild, Andreas. "ESTIMATING AND EVALUATING THE PROBABILITY OF DEFAULT – A MACHINE LEARNING APPROACH." Thesis, Uppsala universitet, Statistiska institutionen, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-447385.
Full textHedblom, Edvin, and Rasmus Åkerblom. "Debt recovery prediction in securitized non-performing loans using machine learning." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252311.
Full textBedömning av kreditvärdighet med maskininlärning har fått ökad uppmärksamhet inom forskningen under de senaste årtiondena och är ofta använt inom den finansiella sektorn. Tidigare studier inom binär klassificering av kreditvärdighet för icke-presterande lånportföljer är få. Denna studie använder random forest och artificial neural networks för att prediktera återupptagandet av lånbetalningar för sådana portföljer. Som jämförelse används logistisk regression. På grund av kraftig obalans mellan klasserna kommer modellerna att bedömas huvudsakligen på arean under reciever operating characteristic-kurvan och precision-recall-kurvan. Denna studie visar på att random forest, artificial neural networks och logistisk regression presterar likartat med överlag goda resultat som har potential att fördelaktigt implementeras i praktiken.
Mirzaikamrani, Sonya. "Predictive modeling and classification for Stroke using the machine learning methods." Thesis, Örebro universitet, Handelshögskolan vid Örebro Universitet, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:oru:diva-81837.
Full textGold, David L. "Bayesian learning in bioinformatics." [College Station, Tex. : Texas A&M University, 2007. http://hdl.handle.net/1969.1/ETD-TAMU-1624.
Full textZiegenhagen, Uwe. "Essays on the use of e-Learning in statistics and the implementation of statistical software." Doctoral thesis, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, 2009. http://dx.doi.org/10.18452/15914.
Full textThe following doctoral thesis collects the papers the author has written with his coauthors on e-Learning and statistical software. The chapters 2 to 5 are devoted to selected aspects of e-Learning, the chapters 6 to 9 describe the development of the statistical programming environment Yxilon. In chapter 2, coauthored by Wolfgang Härdle and Sigbert Klinke, the question whether and how computational elements should be integrated into the canon of methodological education and where e-techniques have their limits in statistics education is discussed. Chapter 3, coauthored by Wolfgang Härdle and Sigbert Klinke, gives reviews of different e-learning platforms for statistics and reveals facts that may be taken into account for future e-learning platforms in statistics and related fields. Chapter 4, written with Wolfgang Härdle and Sigbert Klinke, discusses two papers published in International Statistical Review which both offer a technical solution to improve the understanding of statistics by students. Chapter 5, coauthored by Wolfgang Härdle and Sigbert Klinke, describes web-related techniques for teaching statistics. It furthermore introduces the Quantnet platform, a framework to manage scientific code and data. In chapter 6, coauthored by Wolfgang Härdle and Sigbert Klinke, the requirements for a statistical engine are discussed. Chapter 7, written jointly with Yuval Guri and Sigbert Klinke, explains ideas which led to the reimplementation of the XploRe language. In chapter 8, coauthored by Wolfgang Härdle and Sigbert Klinke, the implemented client/server structure of the Yxilon platform is laid out in terms of technical features. The server and the communication protocol are described together with the developed Java client featuring the Jasplot graphics engine. Finally chapter 9 describes the structure of the Yxilon environment in its present form.
Leong, Jennifer. "High School Students' Attitudes and Beliefs Regarding Statistics in a Service-Learning-Based Statistics Course." Digital Archive @ GSU, 2007. http://digitalarchive.gsu.edu/msit_diss/12.
Full textEkdahl, Magnus. "Approximations of Bayes Classifiers for Statistical Learning of Clusters." Licentiate thesis, Linköping : Linköpings universitet, 2006. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-5856.
Full textLu, Yu. "Statistical and Computational Guarantees for Learning Latent Variable Models." Thesis, Yale University, 2018. http://pqdtopen.proquest.com/#viewpdf?dispub=10783452.
Full textLatent variable models are widely used to capture the underlying structures of the data, for example, Gaussian mixture models for speech recognition, stochastic block models for community detection and topic models for information retrieval. While alternative minimization based algorithms such as EM algorithm and Lloyd's algorithm performs well in practice, there has been little theoretical advancement in explaining the effectiveness of these algorithms. In this thesis, we investigate the performance of Lloyd's algorithm and EM algorithm on clustering two-mixture of Gaussians. With an initializer slightly better than random guess, we are able to show the linear converge of Lloyd's and EM iterations to the statistical optimal estimator. These results shed light on the global convergence of more general non-convex optimizations.
We generalized the results to arbitrary number of sub-Gaussian mixtures. Motivated by the Lloyd's algorithm, we propose new algorithms for other latent variable models including sparse gaussian mixture model, stochastic block model. biclustering model and Dawid-Skene model. The proposed algorithms are computationally efficient and shown to be rate-optimal under mild signal-to-noise ratio conditions. The highlight of our theoretical analysis is to develop new proof techniques to handle the dependency between iterations, which can be applied to other iterative algorithms with explicit iteration formulas.
Kunz, Matthew Ross. "Fused Lasso and Tensor Covariance Learning with Robust Estimation." Thesis, The Florida State University, 2019. http://pqdtopen.proquest.com/#viewpdf?dispub=10973227.
Full textWith the increase in computation and data storage, there has been a vast collection of information gained with scientific measurement devices. However, with this increase in data and variety of domain applications, statistical methodology must be tailored to specific problems. This dissertation is focused on analyzing chemical information with an underlying structure.
Robust fused lasso leverages information about the neighboring regression coefficient structure to create blocks of coefficients. Robust modifications are made to the mean to account for gross outliers in the data. This method is applied to near infrared spectral measurements in prediction of an aqueous analyte concentration and is shown to improve prediction accuracy.
Expansion on the robust estimation and structure analysis is performed by examining graph structures within a clustered tensor. The tensor is subjected to wavelet smoothing and robust sparse precision matrix estimation for a detailed look into the covariance structure. This methodology is applied to catalytic kinetics data where the graph structure estimates the elementary steps within the reaction mechanism.
Berlin, Daniel. "Multi-class Supervised Classification Techniques for High-dimensional Data: Applications to Vehicle Maintenance at Scania." Thesis, KTH, Matematisk statistik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209257.
Full textMånga gånger i samband med fordonsreparationer är felsökningen mer tidskrävande än själva reparationen. Således skulle en systematisk metod för att noggrant prediktera felkällan vara ett värdefullt verktyg för att diagnostisera reparationsåtgärder. I denna uppsats undersöks möjligheten att använda Diagnostic Trouble Codes (DTC:er), som genereras av de elektroniska systemen i Scanias fordon, som indikatorer för att peka ut felorsaken. Till grund för analysen användes ca 18800 observationer av fordon där både DTC:er samt utbytta delar kunnat identifieras under perioden mars 2016 - mars 2017. Två olika strategier för att generera klasser har utvärderats. Till många av klasserna fanns det endast ett fåtal observationer, och för att ge de prediktiva modellerna bra förutsättningar så användes endast klasser med tillräckligt många observationer i träningsdata. Efter bearbetning kunde data innehålla 1547 observationer 4168 attribut, vilket demonstrerar problemets höga dimensionalitet och gör det omöjligt att applicera standard metoder för statistisk analys på stora datamängder. Två metoder för övervakad statistisk inlärning, lämpliga för högdimensionell data med multipla klasser, Södvectormaskiner (SVM) samt Neurala Nätverk (NN) implementeras och deras resultat utvärderas. Analysen visade att på data med 1547 observationer av 4168 attribut (unika DTC:er) och 7 klasser kunde SVM prediktera observationer till klasserna med 79.4% noggrannhet jämfört med 75.4% för NN. De slutsatser som kunde dras av analysen var att DTC:er tycks ha potential att användas för att indikera felorsaker med en prediktiv modell, men att den data som ligger till grund för analysen bör förbättras för att öka noggrannheten i de prediktiva modellerna. Framtida forskningsmöjligheter för att ytterligare förbättra samt utveckla modellen, tillsammans med förslag för hur övervakade klassificerings modeller kan användas på Scnaia har identifierats.
Ramey, James M. "Differences in Statistical Reasoning Abilities through Behavioral-Cognitive Combinations of Videos and Formative Assessments in Undergraduate Statistics Courses." Digital Commons @ East Tennessee State University, 2015. https://dc.etsu.edu/etd/2494.
Full textFuglesang, Rutger. "Particle-Based Online Bayesian Learning of Static Parameters with Application to Mixture Models." Thesis, KTH, Matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-279847.
Full textDetta examensarbete undersöker möjligheten att använda Sekventiella Monte Carlo metoder (SMC) för att utveckla en algoritm med syfte att utvinna parametrar i realtid givet en okänd modell. Då statistisk slutledning från dataströmmar medför svårigheter, särskilt i parameter-modeller, kommer arbetets fokus ligga i utvecklandet av en Monte Carlo algoritm vars uppgift är att sekvensiellt nyttja modellens posteriori fördelningar. Resultatet är att okända, statistiska parametrar kommer att förflyttas mot det krympande stödet av posterioren med hjälp utav en artificiell Markov dynamik, vilket tillåter en korrekt pseudo-marginalisering utav mål-distributionen. Algoritmen kommer sedan att testas på en enkel Gaussisk-modell, en Gaussisk mixturmodell (GMM) och till sist en GMM vars dimension är okänd. Kodningen i detta projekt har utförts i Matlab.
Murphy, James Kevin. "Hidden states, hidden structures : Bayesian learning in time series models." Thesis, University of Cambridge, 2014. https://www.repository.cam.ac.uk/handle/1810/250355.
Full textChoy, Ko-leung Tyrone, and 蔡高亮. "An investigation on the learning of statistics with MINITAB." Thesis, The University of Hong Kong (Pokfulam, Hong Kong), 1998. http://hub.hku.hk/bib/B31960078.
Full textHuang, Xin. "A study on the application of machine learning algorithms in stochastic optimal control." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252541.
Full textGenom att observera en likhet mellan målet för stokastisk optimal styrning för att minimera en förväntad kostnadsfunktionell och syftet med maskininlärning att minimera en förväntad förlustfunktion etableras och implementeras en metod för att applicera maskininlärningsalgoritmen för att approximera den optimala kontrollfunktionen via neuralt approximation. Baserat på en diskretiseringsram, härleds en rekursiv formel för gradienten av den approximerade kostnadsfunktionen på parametrarna för neuralt nätverk. För ett välkänt linjärt-kvadratisk-gaussiskt kontrollproblem lyckas den approximerade neurala nätverksfunktionen erhållen med stokastisk gradient nedstigningsalgoritm att reproducera till formen av den teoretiska optimala styrfunktionen och tillämpning av olika typer av algoritmer för maskininlärning optimering ger en ganska nära noggrannhet med avseende på deras motsvarande empiriska värdefunktion. Vidare är det visat att noggrannheten och stabiliteten hos maskininlärning simetrationen kan förbättras genom att öka storleken på minibatch och tillämpa ett finare diskretiseringsschema. Dessa resultat tyder på effektiviteten och lämpligheten av att tillämpa maskininlärningsalgoritmen för stokastisk optimal styrning.
Shipitsyn, Aleksey. "Statistical Learning with Imbalanced Data." Thesis, Linköpings universitet, Filosofiska fakulteten, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-139168.
Full textÁlvarez, Robles Enrique Josué. "Supervised Learning models with ice hockey data." Thesis, Linköpings universitet, Statistik och maskininlärning, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-167718.
Full textChoy, Tze Leung. "Sparse distance metric learning." Thesis, University of Oxford, 2014. http://ora.ox.ac.uk/objects/uuid:a98695a3-0a60-448f-9ec0-63da3c37f7fa.
Full textBrodin, Kristoffer. "Statistical Machine Learning from Classification Perspective: : Prediction of Household Ties for Economical Decision Making." Thesis, KTH, Matematisk statistik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-215923.
Full textI det moderna samhället har många företag stora datasamlingar över sina enskilda kunder, innehållande information om attribut, så som namn, kön, civilstatus, adress etc. Dessa attribut kan användas för att länka samman kunderna beroende på om de delar någon form av relation till varandra eller ej. I denna avhandling är målet att undersöka och jämföra metoder för att prediktera relationer mellan individer i termer av vad vi definierar som en hushållsrelation, d.v.s. vi vill identifiera vilka individer som delar levnadskostnader med varandra. Målsättningen är att undersöka möjligheten för tre övervakade statistiska maskininlärningsmetoder, nämligen, logistisk regression (LR), artificiella neurala nätverk (ANN) och stödvektormaskinen (SVM), för att prediktera dessa hushållsrelationer och utvärdera deras prediktiva prestanda för olika inställningar på deras motsvarande inställningsparametrar. Data över en begränsad mängd individer, innehållande information om hushållsrelation och attribut, var tillgänglig för denna uppgift. För att tillämpa dessa metoder måste problemet formuleras på en form som möjliggör övervakat lärande, d.v.s. en målvariabel Y och prediktorer X = (X1,…,Xp), baserat på uppsättningen av p attribut associerade med varje individ, måste härledas. Vi har presenterat en teknik som utgörs av att skapa par av individer under hypotesen H0, att de delar ett hushållsförhållande, och sedan konstrueras ett signifikanstest. Denna teknik omvandlar problemet till ett standard binärt klassificeringsproblem. Ett stickprov av observationer, för att träna metoderna, kunde genereras av att slumpmässigt para individer och använda informationen från datasamlingarna för att koda motsvarande utfall på Y och X för varje slumpmässigt par. För utvärdering och avstämning av de tre övervakade inlärningsmetoderna delades observationerna i stickprovet in i en träningsmängd, en valideringsmängd och en testmängd. Vi har sett att prediktionsfelet, i form av felklassificeringsfrekvens, är mycket litet för alla metoder och de två klasserna, H0 är sann, och H0 är falsk, ligger långt ifrån varandra och väl separabla. Data har visat sig ha en uttalad linjär separabilitet, vilket generellt resulterar i mycket små skillnader i felklassificeringsfrekvens då inställningsparametrarna modifieras. Dock har vissa variationer i prediktiv prestanda p.g.a. inställningskonfiguration ändå observerats, och om hänsyn även tages till beräkningstid och beräkningskraft, har optimala inställningsparametrar ändå kunnat fastställas för respektive metod. Jämförs därefter LR, ANN och SVM, med optimala parameterinställningar, visar resultaten från testningen att det inte finns någon signifikant skillnad mellan metodernas prestanda och de predikterar alla väl. På grund av skillnad i komplexitet mellan metoderna, har det dock konstaterats att SVM är den minst lämpliga metoden att använda medan LR är lämpligast. ANN hanterar dock komplex och icke-linjära data bättre än LR, därför, för framtida tillämpning av modellen, där data kanske inte uppvisar lika linjär separabilitet, tycker vi att det är lämpligt att även överväga ANN. Denna uppsats har skrivits på Svenska Handelsbanken, en av storbankerna i Sverige, med kontor över hela världen. Huvudkontoret är beläget i Kungsträdgården, Stockholm. Beräkningar har utförts i programvaran SAS och datahantering i databashanteraren SQL.
Naim, Mohamed M. "Learning curve models for predicting performance of industrial systems." Thesis, Cardiff University, 1993. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.363034.
Full textAndersson, Carl. "Deep learning applied to system identification : A probabilistic approach." Licentiate thesis, Uppsala universitet, Avdelningen för systemteknik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-397563.
Full textVlnas, Pavel. "Management výuky statistických předmětů v kombinovaném studiu." Master's thesis, Vysoká škola ekonomická v Praze, 2009. http://www.nusl.cz/ntk/nusl-19175.
Full textPeccarelli, Adric M. "A Comparison of Variance and Renyi's Entropy with Application to Machine Learning." Thesis, Northern Illinois University, 2017. http://pqdtopen.proquest.com/#viewpdf?dispub=10603911.
Full textThis research explores parametric and nonparametric similarities and disagreements between variance and the information theoretic measure of entropy, specifically Renyi’s entropy. A history and known relationships of the two different uncertainty measures is examined. Then, twenty discrete and continuous parametric families are tabulated with their respective variance and Renyi entropy functions ordered to understand the behavior of these two measures of uncertainty. Finally, an algorithm for variable selection using Renyi’s Quadratic Entropy and its kernel estimation is explored and compared to other popular selection methods using real data.