Dissertations / Theses on the topic 'Random Forest predictive model'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Random Forest predictive model.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Palczewska, Anna Maria. "Interpretation, Identification and Reuse of Models. Theory and algorithms with applications in predictive toxicology." Thesis, University of Bradford, 2014. http://hdl.handle.net/10454/7349.
Full textStum, Alexander Knell. "Random Forests Applied as a Soil Spatial Predictive Model in Arid Utah." DigitalCommons@USU, 2010. https://digitalcommons.usu.edu/etd/736.
Full textKalmár, Marcus, and Joel Nilsson. "The art of forecasting – an analysis of predictive precision of machine learning models." Thesis, Uppsala universitet, Statistiska institutionen, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-280675.
Full textWagner, Christopher. "Regression Model to Project and Mitigate Vehicular Emissions in Cochabamba, Bolivia." University of Dayton / OhioLINK, 2017. http://rave.ohiolink.edu/etdc/view?acc_num=dayton1501719312999566.
Full textZhang, Yi. "Strategies for Combining Tree-Based Ensemble Models." NSUWorks, 2017. http://nsuworks.nova.edu/gscis_etd/1021.
Full textJonsson, Estrid, and Sara Fredrikson. "An Investigation of How Well Random Forest Regression Can Predict Demand : Is Random Forest Regression better at predicting the sell-through of close to date products at different discount levels than a basic linear model?" Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-302025.
Full textAs the climate crisis continues to evolve many companies focus their development on becoming more sustainable. With greenhouse gases being highlighted as the main problem, food waste has obtained a great deal of attention after being named the third largest contributor to global emissions. One way retailers have attempted to improve is through offering close-to-date produce at discount, hence decreasing levels of food being thrown away. To minimize waste the level of discount must be optimized, and as the products can be seen as flawed the known price-to-demand relation of the products may be insufficient. The optimization process historically involves generalized linear regression models, however demand is a complex concept influenced by many factors. This report investigates whether a Machine Learning model, Random Forest Regression, is better at estimating the demand of close-to-date products at different discount levels than a basic linear regression model. The discussion also includes an analysis on whether discounts always increase the will to buy and whether this depends on product type. The results show that Random Forest to a greater extent considers the many factors influencing demand and is superior as a predictor in this case. Furthermore it was concluded that there is generally not a clear linear relation however this does depend on product type as certain categories showed some linearity.
Mathis, Tyler Alan. "Predicting Hardness of Friction Stir Processed 304L Stainless Steel using a Finite Element Model and a Random Forest Algorithm." BYU ScholarsArchive, 2019. https://scholarsarchive.byu.edu/etd/7591.
Full textVictors, Mason Lemoyne. "A Classification Tool for Predictive Data Analysis in Healthcare." BYU ScholarsArchive, 2013. https://scholarsarchive.byu.edu/etd/5639.
Full textOspina, Arango Juan David. "Predictive models for side effects following radiotherapy for prostate cancer." Thesis, Rennes 1, 2014. http://www.theses.fr/2014REN1S046/document.
Full textExternal beam radiotherapy (EBRT) is one of the cornerstones of prostate cancer treatment. The objectives of radiotherapy are, firstly, to deliver a high dose of radiation to the tumor (prostate and seminal vesicles) in order to achieve a maximal local control and, secondly, to spare the neighboring organs (mainly the rectum and the bladder) to avoid normal tissue complications. Normal tissue complication probability (NTCP) models are then needed to assess the feasibility of the treatment and inform the patient about the risk of side effects, to derive dose-Volume constraints and to compare different treatments. In the context of EBRT, the objectives of this thesis were to find predictors of bladder and rectal complications following treatment; to develop new NTCP models that allow for the integration of both dosimetric and patient parameters; to compare the predictive capabilities of these new models to the classic NTCP models and to develop new methodologies to identify dose patterns correlated to normal complications following EBRT for prostate cancer treatment. A large cohort of patient treated by conformal EBRT for prostate caner under several prospective French clinical trials was used for the study. In a first step, the incidence of the main genitourinary and gastrointestinal symptoms have been described. With another classical approach, namely logistic regression, some predictors of genitourinary and gastrointestinal complications were identified. The logistic regression models were then graphically represented to obtain nomograms, a graphical tool that enables clinicians to rapidly assess the complication risks associated with a treatment and to inform patients. This information can be used by patients and clinicians to select a treatment among several options (e.g. EBRT or radical prostatectomy). In a second step, we proposed the use of random forest, a machine-Learning technique, to predict the risk of complications following EBRT for prostate cancer. The superiority of the random forest NTCP, assessed by the area under the curve (AUC) of the receiving operative characteristic (ROC) curve, was established. In a third step, the 3D dose distribution was studied. A 2D population value decomposition (PVD) technique was extended to a tensorial framework to be applied on 3D volume image analysis. Using this tensorial PVD, a population analysis was carried out to find a pattern of dose possibly correlated to a normal tissue complication following EBRT. Also in the context of 3D image population analysis, a spatio-Temporal nonparametric mixed-Effects model was developed. This model was applied to find an anatomical region where the dose could be correlated to a normal tissue complication following EBRT
Kabir, Mitra. "Prediction of mammalian essential genes based on sequence and functional features." Thesis, University of Manchester, 2017. https://www.research.manchester.ac.uk/portal/en/theses/prediction-of-mammalian-essential-genes-based-on-sequence-and-functional-features(cf8eeed5-c2b3-47c3-9a8f-2cc290c90d56).html.
Full textMita, Mara. "Assessment of seismic displacements of existing landslides through numerical modelling and simplified methods." Electronic Thesis or Diss., Université Gustave Eiffel, 2023. http://www.theses.fr/2023UEFL2075.
Full textLandslides are common secondary effects related to earthquakes which can be responsible for greater damages than the ground shaking alone. Predicting these phenomena is therefore essential for risk management in seismic regions. Nowadays, landslides permanent co-seismic displacements are assessed by the traditional « rigid-sliding block » method proposed by Newmark (1965). Despite its limitations, this method has two advantages: i) relatively short computation times, ii) compatibility with GIS software for regional-scale analyses. Alternatively, more complex numerical analyses can be performed to simulate seismic waves propagation into slopes and related effects. However, due to their longer computation times, their use is usually limited to slope-scale analyses. This study aims at better understanding in which conditions (i.e. combinations of introduced relevant parameters), analytical and numerical methods predict different landslides earthquake-induced displacements. At this regard, 216 2D landslide prototypes were designed by combining geometrical and geotechnical parameters inferred by statistical analysis on data collected by literature review. Landslide prototypes were forced by 17 signals with constant Arias Intensity (AI ~ 0.1 m/s) and variable mean period. Results allowed defining a preliminary Random Forest model to predict a priori, the expected difference between displacements by the two methods. Analysis of results allowed: i) identifying parameters affecting displacement variation according to the two methods, ii) concluding that in here considered AI level, computed displacements differences are negligible in most of the cases
Asritha, Kotha Sri Lakshmi Kamakshi. "Comparing Random forest and Kriging Methods for Surrogate Modeling." Thesis, Blekinge Tekniska Högskola, Fakulteten för datavetenskaper, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-20230.
Full textEkeberg, Lukas, and Alexander Fahnehjelm. "Maskininlärning som verktyg för att extrahera information om attribut kring bostadsannonser i syfte att maximera försäljningspris." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-240401.
Full textDen svenska bostadsmarknaden har blivit alltmer digitaliserad under det senaste årtiondet med nuvarande praxis att säljaren publicerar sin bostadsannons online. En fråga som uppstår är hur en säljare kan optimera sin annons för att maximera budpremie. Denna studie analyserar tre maskininlärningsmetoder för att lösa detta problem: Linear Regression, Decision Tree Regressor och Random Forest Regressor. Syftet är att utvinna information om de signifikanta attribut som påverkar budpremien. Det dataset som använts innehåller lägenheter som såldes under åren 2014-2018 i Stockholmsområdet Östermalm / Djurgården. Modellerna som togs fram uppnådde ett R²-värde på approximativt 0.26 och Mean Absolute Error på approximativt 0.06. Signifikant information kunde extraheras from modellerna trots att de inte var exakta i att förutspå budpremien. Sammanfattningsvis skapar ett stort antal visningar och en publicering i april de bästa förutsättningarna för att uppnå en hög budpremie. Säljaren ska försöka hålla antal dagar sedan publicering under 15.5 dagar och undvika att publicera på tisdagar.
Кичигіна, Анастасія Юріївна. "Прогнозування ІМТ за допомогою методів машинного навчання." Bachelor's thesis, КПІ ім. Ігоря Сікорського, 2020. https://ela.kpi.ua/handle/123456789/37413.
Full textThesis: 100 p., 17 tabl., 16 fig., 2 add. and 24 references. The object of the study is the human body mass index. The subject of research is machine learning methods - regression models, ensemble model random forest and neural network. In this paper, a study of the dependence of the human body mass index and the presence of excess body weight on eating and living habits. To build the study, the methods of machine learning and data analysis were used, work was done to identify opportunities to improve the performance of standard models and identified the best model for the implementation of predicting and classification based on the data. The direction of work is in the reduced dimensions of the feature space, selection of the best observations with valid data for better performance of models, as well as in combining different teaching methods and obtaining more effective ensemble models.
Henriksson, Erik, and Kristopher Werlinder. "Housing Price Prediction over Countrywide Data : A comparison of XGBoost and Random Forest regressor models." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-302535.
Full textMålet med den här studien är att jämföra och undersöka hur en XGBoost regressor och en Random Forest regressor presterar i att förutsäga huspriser. Detta görs med hjälp av två stycken datauppsättningar. Jämförelsen tar hänsyn till modellernas träningstid, slutledningstid och de tre utvärderingsfaktorerna R2, RMSE and MAPE. Datauppsättningarna beskrivs i detalj tillsammans med en bakgrund om regressionsmodellerna. Metoden innefattar en rengöring av datauppsättningarna, sökande efter optimala hyperparametrar för modellerna och 5delad korsvalidering för att uppnå goda förutsägelser. Resultatet av studien är att XGBoost regressorn presterar bättre på både små och stora datauppsättningar, men att den är överlägsen när det gäller stora datauppsättningar. Medan Random Forest modellen kan uppnå liknande resultat som XGBoost modellen, tar träningstiden mellan 250 gånger så lång tid och modellen får en cirka 40 gånger längre slutledningstid. Detta gör att XGBoost är särskilt överlägsen vid användning av stora datauppsättningar.
Lazic, Marko, and Felix Eder. "Using Random Forest model to predict image engagement rate." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-229932.
Full textSyftet med denna forskning är att undersöka om Google Cloud Vision API kombinerat med Random Forest Machine Learning algoritmer är tillräckligt avancerade för att skapa en mjukvara som tillförlitligt kan evaluera hur mycket ett Instagram-inlägg kan bidra till bilden av ett varumärke. Datamängden innehåller bilder hämtade från Instagrams publika flöde filtrerat av #Nike, tillsammans med metadatan för inlägget. Varje bild var bearbetad av Google Cloud Vision API för att få tag på en mängd deskriptiva etiketter för innehållet av en bild. Datamängden skickades till Random Forest-algoritmen för att träna dess model. Undersökningens resultat är inte särskilt exakta, vilket främst beror på de begränsade faktorerna från Google Cloud Vision API. Slutsatsen som dras är att det inte är möjligt att tillförlitligt förutspå en bilds kvalitet med tekniken som finns allmänt tillgänglig idag.
Galleguillos, Aguilar Matías. "Desarrollo de un modelo predictivo de deserción de estudiantes de primer año en institución de educación superior." Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/170006.
Full textEn Chile, durante los últimos 30 años ha habido un crecimiento significativo en el acceso de las personas a la educación superior. Acompañado de este crecimiento se ha visto un aumento en la deserción universitaria, siendo particularmente elevada la de alumnos de primer año. Este problema tiene grandes costos de distinta índole tanto para los alumnos como para las universidades, haciendo que se haya posicionado como una de las métricas más importantes que se utiliza para acreditar a las instituciones. La Universidad de las Américas se ha visto enfrentada a una alta tasa de deserción, traduciéndose en que en el año 2013 haya contribuido de manera importante a la pérdida de su acreditación, por lo que se transformó en tema prioritario a resolver. Por esto se ideó un plan para ayudar a los alumnos con mayor probabilidad de desertar. Actualmente UDLA no posee un sistema automatizado que clasifique a los alumnos en base a análisis de datos de su comportamiento, sólo se cuenta con un sistema de reglas creado en base al conocimiento de deserción de miembros de la universidad, por lo que tiene una alta tasa de errores. En el último estudio publicado por el Servicio de Información de Educación Superior sobre retención de alumnos de primer año, construido con datos de alumnos que ingresaron a estudiar el año 2016, la Universidad de las Américas se ubica en la posición 47 de 58 universidades. Por esto, desarrollar un sistema capaz de identificar a los alumnos que estén en riesgo de desertar sigue siendo un tema prioritario para la institución. El objetivo del presente trabajo es desarrollar un sistema capaz de entregar un índice de riesgo de deserción de cada alumno de primer año. Para esto se propone plantear el proceso de asignar riesgo como un problema de clasificación y afrontarlo con herramientas de inteligencia computacional. Para resolver el problema se dividió el semestre en tramos y se entrenó un modelo para cada uno de éstos. La precisión del primer modelo fue más baja que la de estudios similares que afrontaron el mismo problema en otras universidades del mundo, teniendo un 70,1% de aciertos. El modelo de cada tramo entregó mejores resultados que los del tramo anterior, siendo el del final del semestre el de mejores resultados llegando a un 82,5% de precisión, lo que se asemeja a otros trabajos.
Lanka, Venkata Raghava Ravi Teja Lanka. "VEHICLE RESPONSE PREDICTION USING PHYSICAL AND MACHINE LEARNING MODELS." The Ohio State University, 2017. http://rave.ohiolink.edu/etdc/view?acc_num=osu1511891682062084.
Full textLundström, Love, and Oscar Öhman. "Machine Learning in credit risk : Evaluation of supervised machine learning models predicting credit risk in the financial sector." Thesis, Umeå universitet, Institutionen för matematik och matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-164101.
Full textNär banker lånar ut pengar till en annan part uppstår en risk i att låntagaren inte uppfyller sitt antagande mot banken. Denna risk kallas för kredit risk och är den största risken en bank står inför. Enligt Basel föreskrifterna måste en bank avsätta en viss summa kapital för varje lån de ger ut för att på så sätt skydda sig emot framtida finansiella kriser. Denna summa beräknas fram utifrån varje enskilt lån med tillhörande risk-vikt, RWA. De huvudsakliga parametrarna i RWA är sannolikheten att en kund ej kan betala tillbaka lånet samt summan som banken då förlorar. Idag kan banker använda sig av interna modeller för att estimera dessa parametrar. Då bundet kapital medför stora kostnader för banker, försöker de sträva efter att hitta bättre verktyg för att uppskatta sannolikheten att en kund fallerar för att på så sätt minska deras kapitalkrav. Därför har nu banker börjat titta på möjligheten att använda sig av maskininlärningsalgoritmer för att estimera dessa parametrar. Maskininlärningsalgoritmer såsom Logistisk regression, Neurala nätverk, Beslutsträd och Random forest, kan användas för att bestämma kreditrisk. Genom att träna algoritmer på historisk data med kända resultat kan parametern, chansen att en kund ej betalar tillbaka lånet (PD), bestämmas med en högre säkerhet än traditionella metoder. På den givna datan som denna uppsats bygger på visar det sig att Logistisk regression är den algoritm med högst träffsäkerhet att klassificera en kund till rätt kategori. Däremot klassifiserar denna algoritm många kunder som falsk positiv vilket betyder att den predikterar att många kunder kommer betala tillbaka sina lån men i själva verket inte betalar tillbaka lånet. Att göra detta medför en stor kostnad för bankerna. Genom att istället utvärdera modellerna med hjälp av att införa en kostnadsfunktion för att minska detta fel finner vi att Neurala nätverk har den lägsta falsk positiv ration och kommer därmed vara den model som är bäst lämpad att utföra just denna specifika klassifierings uppgift.
De, Giorgi Marcello. "Tree ensemble methods for Predictive Maintenance: a case study." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2021. http://amslaurea.unibo.it/22282/.
Full textJiao, Weiwei. "Predictive Analysis for Trauma Patient Readmission Database." The Ohio State University, 2017. http://rave.ohiolink.edu/etdc/view?acc_num=osu1492718909631318.
Full textGeylan, Gökçe. "Training Machine Learning-based QSAR models with Conformal Prediction on Experimental Data from DNA-Encoded Chemical Libraries." Thesis, Uppsala universitet, Institutionen för farmaceutisk biovetenskap, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-447354.
Full textOlofsson, Nina. "A Machine Learning Ensemble Approach to Churn Prediction : Developing and Comparing Local Explanation Models on Top of a Black-Box Classifier." Thesis, KTH, Skolan för datavetenskap och kommunikation (CSC), 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-210565.
Full textMetoder för att prediktera utträde är vanliga inom Customer Relationship Management och har visat sig vara värdefulla när det kommer till att behålla kunder. För att kunna prediktera utträde med så hög säkerhet som möjligt har den senasteforskningen fokuserat på alltmer komplexa maskininlärningsmodeller, såsom ensembler och hybridmodeller. En konsekvens av att ha alltmer komplexa modellerär dock att det blir svårare och svårare att förstå hur en viss modell har kommitfram till ett visst beslut. Tidigare studier inom maskininlärningsinterpretering har haft ett globalt perspektiv för att förklara svårförståeliga modeller. Denna studieutforskar lokala förklaringsmodeller för att förklara individuella beslut av en ensemblemodell känd som 'Random Forest'. Prediktionen av utträde studeras påanvändarna av Tink – en finansapp. Syftet med denna studie är att ta lokala förklaringsmodeller ett steg längre genomatt göra jämförelser av indikatorer för utträde mellan olika användargrupper. Totalt undersöktes tre par av grupper som påvisade skillnader i tre olika variabler. Sedan användes lokala förklaringsmodeller till att beräkna hur viktiga alla globaltfunna indikatorer för utträde var för respektive grupp. Resultaten visade att detinte fanns några signifikanta skillnader mellan grupperna gällande huvudindikatorerna för utträde. Istället visade resultaten skillnader i mindre viktiga indikatorer som hade att göra med den typ av information som lagras av användarna i appen. Förutom att undersöka skillnader i indikatorer för utträde resulterade dennastudie i en välfungerande modell för att prediktera utträde med förmågan attförklara individuella beslut. Random Forest-modellen visade sig vara signifikantbättre än ett antal enklare modeller, med ett AUC-värde på 0.93.
Forsblom, Findlay, and Lars Petter Ulvatne. "Snow depth measurements and predictions : Reducing environmental impact for artificial grass pitches at snowfall." Thesis, Linnéuniversitetet, Institutionen för datavetenskap och medieteknik (DM), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:lnu:diva-96395.
Full textAuret, Lidia. "Process monitoring and fault diagnosis using random forests." Thesis, Stellenbosch : University of Stellenbosch, 2010. http://hdl.handle.net/10019.1/5360.
Full textDissertation presented for the Degree of DOCTOR OF PHILOSOPHY (Extractive Metallurgical Engineering) in the Department of Process Engineering at the University of Stellenbosch
ENGLISH ABSTRACT: Fault diagnosis is an important component of process monitoring, relevant in the greater context of developing safer, cleaner and more cost efficient processes. Data-driven unsupervised (or feature extractive) approaches to fault diagnosis exploit the many measurements available on modern plants. Certain current unsupervised approaches are hampered by their linearity assumptions, motivating the investigation of nonlinear methods. The diversity of data structures also motivates the investigation of novel feature extraction methodologies in process monitoring. Random forests are recently proposed statistical inference tools, deriving their predictive accuracy from the nonlinear nature of their constituent decision tree members and the power of ensembles. Random forest committees provide more than just predictions; model information on data proximities can be exploited to provide random forest features. Variable importance measures show which variables are closely associated with a chosen response variable, while partial dependencies indicate the relation of important variables to said response variable. The purpose of this study was therefore to investigate the feasibility of a new unsupervised method based on random forests as a potentially viable contender in the process monitoring statistical tool family. The hypothesis investigated was that unsupervised process monitoring and fault diagnosis can be improved by using features extracted from data with random forests, with further interpretation of fault conditions aided by random forest tools. The experimental results presented in this work support this hypothesis. An initial study was performed to assess the quality of random forest features. Random forest features were shown to be generally difficult to interpret in terms of geometry present in the original variable space. Random forest mapping and demapping models were shown to be very accurate on training data, and to extrapolate weakly to unseen data that do not fall within regions populated by training data. Random forest feature extraction was applied to unsupervised fault diagnosis for process data, and compared to linear and nonlinear methods. Random forest results were comparable to existing techniques, with the majority of random forest detections due to variable reconstruction errors. Further investigation revealed that the residual detection success of random forests originates from the constrained responses and poor generalization artifacts of decision trees. Random forest variable importance measures and partial dependencies were incorporated in a visualization tool to allow for the interpretation of fault conditions. A dynamic change point detection application with random forests proved more successful than an existing principal component analysis-based approach, with the success of the random forest method again residing in reconstruction errors. The addition of random forest fault diagnosis and change point detection algorithms to a suite of abnormal event detection techniques is recommended. The distance-to-model diagnostic based on random forest mapping and demapping proved successful in this work, and the theoretical understanding gained supports the application of this method to further data sets.
AFRIKAANSE OPSOMMING: Foutdiagnose is ’n belangrike komponent van prosesmonitering, en is relevant binne die groter konteks van die ontwikkeling van veiliger, skoner en meer koste-effektiewe prosesse. Data-gedrewe toesigvrye of kenmerkekstraksie-benaderings tot foutdiagnose benut die vele metings wat op moderne prosesaanlegte beskikbaar is. Party van die huidige toesigvrye benaderings word deur aannames rakende liniariteit belemmer, wat as motivering dien om nie-liniêre metodes te ondersoek. Die diversiteit van datastrukture is ook verdere motivering vir ondersoek na nuwe kenmerkekstraksiemetodes in prosesmonitering. Lukrake-woude is ’n nuwe statistiese inferensie-tegniek, waarvan die akkuraatheid toegeskryf kan word aan die nie-liniêre aard van besluitnemingsboomlede en die bekwaamheid van ensembles. Lukrake-woudkomitees verskaf meer as net voorspellings; modelinligting oor datapuntnabyheid kan benut word om lukrakewoudkenmerke te verskaf. Metingbelangrikheidsaanduiers wys watter metings in ’n noue verhouding met ’n gekose uitsetveranderlike verkeer, terwyl parsiële afhanklikhede aandui wat die verhouding van ’n belangrike meting tot die gekose uitsetveranderlike is. Die doel van hierdie studie was dus om die uitvoerbaarheid van ’n nuwe toesigvrye metode vir prosesmonitering gebaseer op lukrake-woude te ondersoek. Die ondersoekte hipotese lui: toesigvrye prosesmonitering en foutdiagnose kan verbeter word deur kenmerke te gebruik wat met lukrake-woude geëkstraheer is, waar die verdere interpretasie van foutkondisies deur addisionele lukrake-woude-tegnieke bygestaan word. Eksperimentele resultate wat in hierdie werkstuk voorgelê is, ondersteun hierdie hipotese. ’n Intreestudie is gedoen om die gehalte van lukrake-woudkenmerke te assesseer. Daar is bevind dat dit moeilik is om lukrake-woudkenmerke in terme van die geometrie van die oorspronklike metingspasie te interpreteer. Verder is daar bevind dat lukrake-woudkartering en -dekartering baie akkuraat is vir opleidingsdata, maar dat dit swak ekstrapolasie-eienskappe toon vir ongesiene data wat in gebiede buite dié van die opleidingsdata val. Lukrake-woudkenmerkekstraksie is in toesigvrye-foutdiagnose vir gestadigde-toestandprosesse toegepas, en is met liniêre en nie-liniêre metodes vergelyk. Resultate met lukrake-woude is vergelykbaar met dié van bestaande metodes, en die meerderheid lukrake-woudopsporings is aan metingrekonstruksiefoute toe te skryf. Verdere ondersoek het getoon dat die sukses van res-opsporing op die beperkte uitsetwaardes en swak veralgemenende eienskappe van besluitnemingsbome berus. Lukrake-woude-metingbelangrikheidsaanduiers en parsiële afhanklikhede is ingelyf in ’n visualiseringstegniek wat vir die interpretasie van foutkondisies voorsiening maak. ’n Dinamiese aanwending van veranderingspuntopsporing met lukrake-woude is as meer suksesvol bewys as ’n bestaande metode gebaseer op hoofkomponentanalise. Die sukses van die lukrake-woudmetode is weereens aan rekonstruksie-reswaardes toe te skryf. ’n Voorstel wat na aanleiding van hierde studie gemaak is, is dat die lukrake-woudveranderingspunt- en foutopsporingsmetodes by ’n soortgelyke stel metodes gevoeg kan word. Daar is in hierdie werk bevind dat die afstand-vanaf-modeldiagnostiek gebaseer op lukrake-woudkartering en -dekartering suksesvol is vir foutopsporing. Die teoretiese begrippe wat ontsluier is, ondersteun die toepassing van hierdie metodes op verdere datastelle.
Goodwin, Christopher C. H. "The Influence of Cost-sharing Programs on Southern Non-industrial Private Forests." Thesis, Virginia Tech, 2001. http://hdl.handle.net/10919/30895.
Full textMaster of Science
Dunja, Vrbaški. "Primena mašinskog učenja u problemu nedostajućih podataka pri razvoju prediktivnih modela." Phd thesis, Univerzitet u Novom Sadu, Fakultet tehničkih nauka u Novom Sadu, 2020. https://www.cris.uns.ac.rs/record.jsf?recordId=114270&source=NDLTD&language=en.
Full textThe problem of missing data is often present when developing predictivemodels. Instead of removing data containing missing values, methods forimputation can be applied. The dissertation proposes a methodology foranalysis of imputation performance in the development of predictive models.Based on the proposed methodology, results of the application of machinelearning algorithms, as an imputation method in the development of specificmodels, are presented.
Chery, Joseph Erol. "Adjusting to random demands of patient care : a predictive model for nursing staff scheduling at Naval Medical Center San Diego /." Thesis, Monterey, Calif. : Naval Postgraduate School, 2008. http://edocs.nps.edu/npspubs/scholarly/theses/2008/Sept/08Sep%5FChery.pdf.
Full textThesis Advisor(s): Fricker, Ronald D. "September 2008." Description based on title screen as viewed on November 5, 2008. Includes bibliographical references (p. 43-46). Also available in print.
Tran, khac Viet. "Le rôle des facteurs environnementaux sur la concentration des métaux-tracesdans les lacs urbains -Lac de Pampulha, Lac de Créteil et 49 lacs péri-urbains d’Ile de France." Thesis, Paris Est, 2016. http://www.theses.fr/2016PESC1160/document.
Full textLakes have a particular influence on the water cycle in urban catchments. Thermal stratification and a longer water residence time in the lake boost the phytoplankton production. Most metals are naturally found in the environment in trace amounts. Trace metals are essential to growth and reproduction of organisms. However, some are also well known for their toxic effects on animals and humans. Total metal concentrations do not reflect their ecotoxicity that depends on their properties and speciation (particulate, dissolved: labile or bioavailable and inert fractions). Trace metals can be adsorbed to various components in aquatic systems including inorganic and organic ligands. The ability of metal binding to dissolved organic matter (DOM), in particular humic substances, has been largely studied. In urban lakes, the phytoplankton development can produce autochthonous DOM, non humic substances that can have the ability of metal binding.. But there are few studies about trace metal speciation in lake water column.The main objectives of this thesis are (1) to obtain a consistent database of trace metal concentrations in the water column of representative urban lakes; (2) to access their bioavailability through an adapted speciation technique; (3) to analyze the seasonal and spatial evolution of the metals and their speciation; (4) to study the potential impact of environmental variables, particularly of dissolved organic matter related to phytoplankton production on metal bioavailability and (5) to link the metal concentrations to the land use in the lake watershed.Our methodology is based on a dense field survey of the water bodies in addition to specific laboratory analysis. The research has been conducted on three study sites: Lake Créteil (France), Lake Pampulha (Brazil) and a panel of 49 peri-urban lakes (Ile de France). Lake Créteil is an urban lake impacted by anthropogenic pollution. It benefits of a large number of monitoring equipment, which allowed us to collect a part of the data set. In Lake Pampulha catchment, the anthropogenic pressure is high. Lake Pampulha has to face with many pollution point and non-point sources. The climate and limnological characteristics of the lakes are also very different. The panel of 49 lakes of Ile de France was sampled once during three successive summers (2011-2013); they provided us with a synoptic, representative data set of the regional metal contamination in a densely anthropized region.In order to explain the role of the environmental variables on the metal concentrations, we applied the Random Forest model on the Lake Pampulha dataset and on the 49 urban lake dataset with 2 specific objectives: (1) in Lake Pampulha, understanding the role of environmental variables on the trace metal labile concentration, considered as potentially bioavailable and (2) in the 49 lakes, understanding the relationship of the environmental variables, more particularly the watershed variables, on the dissolved metal concentrations. The analysis of the relationships between the trace metal speciation and the environmental variables provided the following key results of this thesis.In Lake Pampulha, around 80% of the variance of the labile cobalt is explained by some limnological variables: Chl a, O2, pH, and total phosphorus. For the other metals, the RF model did not succeed in explaining more than 50% of the relationships between the metals and the limnological variables.In the 49 urban lakes in Ile de France, the RF model gave a good result for Co (66% of explained variance) and very satisfying for Ni (86% of explained variance). For Ni, the best explanatory variables are landuse variables such as “activities” (facilities for water, sanitation and energy, logistical warehouses, shops, office…) and “landfill”. This result fits with Lake Creteil where dissolved Ni concentration is particularly high and where the “activities” and “landfill” landuse categories are the highest
Mistry, Pritesh. "A Knowledge Based Approach of Toxicity Prediction for Drug Formulation. Modelling Drug Vehicle Relationships Using Soft Computing Techniques." Thesis, University of Bradford, 2015. http://hdl.handle.net/10454/14440.
Full textHeinken, Thilo, and Eckart Winkler. "Non-random dispersal by ants : long-term field data versus model predictions of population spread of a forest herb." Universität Potsdam, 2009. http://opus.kobv.de/ubp/volltexte/2010/4648/.
Full textRico-Fontalvo, Florentino Antonio. "A Decision Support Model for Personalized Cancer Treatment." Scholar Commons, 2014. https://scholarcommons.usf.edu/etd/5621.
Full textBrokamp, Richard C. "Land Use Random Forests for Estimation of Exposure to Elemental Components of Particulate Matter." University of Cincinnati / OhioLINK, 2016. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1463130851.
Full textMaginnity, Joseph D. "Comparing the Uses and Classification Accuracy of Logistic and Random Forest Models on an Adolescent Tobacco Use Dataset." The Ohio State University, 2020. http://rave.ohiolink.edu/etdc/view?acc_num=osu1586997693789325.
Full textAl, Tobi Amjad Mohamed. "Anomaly-based network intrusion detection enhancement by prediction threshold adaptation of binary classification models." Thesis, University of St Andrews, 2018. http://hdl.handle.net/10023/17050.
Full textOzturk, Mehmet. "The Factors Affecting Wind Erosion in Southern Utah." DigitalCommons@USU, 2019. https://digitalcommons.usu.edu/etd/7610.
Full textLandmér, Pedersen Jesper. "Weighing Machine Learning Algorithms for Accounting RWISs Characteristics in METRo : A comparison of Random Forest, Deep Learning & kNN." Thesis, Linnéuniversitetet, Institutionen för datavetenskap och medieteknik (DM), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:lnu:diva-85586.
Full textFagua, José Camilo. "Geospatial Modeling of Land Cover Change in the Chocó-Darien Global Ecoregion of South America: Assessing Proximate Causes and Underlying Drivers of Deforestation and Reforestation." DigitalCommons@USU, 2018. https://digitalcommons.usu.edu/etd/7362.
Full textFrost, Scott M. "Fire Environment Analysis at Army Garrison Camp Williams in Relation to Fire Behavior Potential for Gauging Fuel Modification Needs." DigitalCommons@USU, 2015. https://digitalcommons.usu.edu/etd/4560.
Full textLood, Olof. "Prediktering av grundvattennivåi område utan grundvattenrör : Modellering i ArcGIS Pro och undersökningav olika miljövariablers betydelse." Thesis, Uppsala universitet, Institutionen för geovetenskaper, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-448020.
Full textThe Swedish authority Geological Survey of Sweden (SGU) has a national responsibility to oversee the groundwater levels. A national network of measurement stations has been established to facilitate this. The density of measurement stations varies considerably. Since it will never be feasible to cover the entire country with measurement stations, the groundwater levels need to be computed in areas that are not in the near vicinity of a measurement station. For that reason, it is of interest to investigate the correlation between the groundwater levels and selected geographical information, so called environmental variables. In the future, SGU may use machine learning to compute the groundwater levels. The focus of this master's thesis is to study the importance of the environmental variables and model uncertainties in order to determine if this is a feasible option for implementation on a national basis. The study uses data from seven areas of the Groundwater network of SGU, where the measuring stations are in clusters. The pilot study uses a supervised machine learning method which in this case means that the median groundwater levels and the environmental variables train the models. By evaluating the model's statistical data output the performance can gradually be improved. The algorithm used is called “Random Forest” and uses a classification and regression tree to learn how to make decisions throughout a network of nodes, branches and leaves due to the input data. The models are set up by the prediction tool “Forest-based Classification and Regression” in ArcGIS Pro. Because the areas are geographically spread out, eight unique models are set up. The results show that it’s possible to predict groundwater levels by using this method but that the importance of the environmental variables varies between the different areas used in this study. The cause of this may be due to geographical and topographical differences. Most often, the absolute level over mean sea level and slope direction are the most important variables. Planar and height distance differences to low and high permeable soils have medium high importance while the distance differences to medium high permeable soils have lower importance. Planar and height distance differences are more important to lakes and large watercourses than to small watercourses and ditches. The model’s r2-values are slightly low in theory but within reasonable limits to be a hydrological model. The Standard Errors Estimate (SSE) are also in most cases within reasonable limits. The uncertainty is displayed by a 90 % confidence interval. The uncertainties increase with increased distance to measuring stations and become greatest at high altitude. The cause of this may be due to having too few observations, especially in areas with high altitude. The uncertainties are smaller close to the stations and in valleys.
SGUs grundvattennät
Carter, Kristina A. "A Comparison of Variable Selection Methods for Modeling Human Judgment." Ohio University / OhioLINK, 2019. http://rave.ohiolink.edu/etdc/view?acc_num=ohiou1552494031580848.
Full textKennedy, Brian Michael Kennedy. "Leveraging Multimodal Tumor mRNA Expression Data from Colon Cancer: Prospective Observational Studies for Hypothesis Generating and Predictive Modeling." The Ohio State University, 2017. http://rave.ohiolink.edu/etdc/view?acc_num=osu1498742562364379.
Full textBadayos, Noah Garcia. "Machine Learning-Based Parameter Validation." Diss., Virginia Tech, 2014. http://hdl.handle.net/10919/47675.
Full textPh. D.
Vaughan, Angus A. "Discharge-Suspended Sediment Relations: Near-channel Environment Controls Shape and Steepness, Land Use Controls Median and Low Flow Conditions." DigitalCommons@USU, 2016. https://digitalcommons.usu.edu/etd/5191.
Full textStraková, Kristýna. "Datamining a využití rozhodovacích stromů při tvorbě Scorecards." Master's thesis, Vysoká škola ekonomická v Praze, 2014. http://www.nusl.cz/ntk/nusl-201627.
Full textJacobsson, Marcus, and Viktor Inkapööl. "Prediktion av optimal tidpunkt för köp av flygbiljetter med hjälp av maskininlärning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-281767.
Full textArbetet presenterat i studien är baserat på målet att sänka konsumentkostnader relaterat till köp av flygresor. Mer specifikt har studien undersökt huruvida det är möjligt att predicera optimala köpbeslut för specifika flygrutter med hjälp av maskininlärningsmodeller tränade på grundläggande data innehållande endast information om pris och sökdatum för varje givet avresedatum. Modellerna baserades på Random Forest Classifier och tränades på sökdata upp till 90 dagar före avresa för varje avresedag i juli 2016–2018, och testades på likadan data för 2019. Efter förberedelse av data och tuning av hyperparametrar lyckades modellerna med en träffsäkerhet på 88% respektive 84% predicera optimalt köp för rutterna Stockholm-Mallorca respektive Stockholm-Bangkok. Baserat på antagande om att antalet sökningar korrelerar med efterfrågan och vidare faktiska köp, beräknade studien att den genomsnittliga förväntade besparingen per biljett vid användning av modeller på de undersökta rutterna till 21% respektive 17%. Vidare undersökte studien hur en affärsmodell för prisjämförelse kan omformas för att inkorporera resultaten. Ramverkat som användes för detta var Business Model Canvas och mynnade ut i en rekommendation av implementering av en premiumtjänst genom vilken användare ges information biljett ska köpas eller ej vid en given sökning.
Yang, Kaolee. "A Statistical Analysis of Medical Data for Breast Cancer and Chronic Kidney Disease." Bowling Green State University / OhioLINK, 2020. http://rave.ohiolink.edu/etdc/view?acc_num=bgsu1587052897029939.
Full textKarlsson, Daniel, and Alex Lindström. "Automated Learning and Decision : Making of a Smart Home System." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-234313.
Full textSmarta hem är system avsedda för att hjälpa användare styra sin hemmiljö. Ett smart hem är uppbyggt av enheter med möjlighet att kommunicera med varandra. För att kontrollera enheterna i ett smart hem, används en central styrenhet. Att få ett smart hem att vara anpassat till användare är ansträngande och tidskrävande. Smarta hemsystem saknar i stor utsträckning möjligheten att lära sig av användarens beteende. Vad ett sådant lärande skulle kunna möjliggöra är ett skräddarsytt system utan användarens involvering. Syftet med denna avhandling är att undersöka hur användardata från en hemmiljö kan användas i ett smart hemsystem för att lära sig av användarens beteende. Ett litet smart hemsystem har skapats för att studera ifall denna inlärningsmetod är applicerbar. Systemet består av sensorer, trådlösa eluttag och en central styrenhet. Den centrala styrenheten används för att kontrollera de olika enheterna i miljön. Sensordata som sparas av systemet består av rörelse, ljusstyrka, temperatur och luftfuktighet. Systemet sparar även användarens beteende i miljön. Systemet skapar regler utifrån sparad data med målet att kunna styra enheterna i miljön på ett sätt som passar användaren. Systemets agerande varierade beroende på hur data samlades in. Resultatet visar vikten av att samla in data både i intervaller och när användare tar ett beslut i miljön.
Zarebanadkoki, Samane. "Essays on Health Economics Using Big Data." UKnowledge, 2019. https://uknowledge.uky.edu/agecon_etds/82.
Full textStaberg, Pontus, Emil Häglund, and Jakob Claesson. "Injury Prediction in Elite Ice Hockey using Machine Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235959.
Full textIdrottsklubbar letar ständigt efter innovativa sätt att förbättra prestation och erhålla konkurrensfördelar. Idag fokuserar data- analys inom idrott främst på att utvärdera mätvärden som tros vara direkt korrelerade med prestation. Skador sänker indirekt prestationen och kostar markant i bortslösade spelarlöner. Tidigare studier på skador inom idrotten fokuserar huvudsakligen på att korrelera ett mätvärde till en skada i taget. Den här rapporten ger ett multidimensionellt angreppssätt till att förutse skador inom svensk elitishockey genom att applicera maskininlärning på historisk data. Flera attribut korreleras samtidigt för att få fram en skadesannolikhet. Målet med den här rapporten är att skapa en algoritm för att förutse skador och även ranka olika attribut baserat på hur de påverkar skaderisken. I rapporten diskuteras även affärsmöjligheterna för en sådan lösning och hur en potentiell start-up ska positionera sig på marknaden.