Dissertations / Theses on the topic 'Reinforcement'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Reinforcement.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Pettersson, Markus, and Andreas Larsson. "Automated Construction- Reinforcement : Lifting Prefabricated Reinforcement Cages." Thesis, Luleå tekniska universitet, Institutionen för samhällsbyggnad och naturresurser, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:ltu:diva-84326.
Full textByggindustrin går mot ett allt mer industriellt byggande och ett steg på vägen är att använda sig av prefabricerade armeringskorgar. Ett nytt koncept håller på att undersökas där man vill framställa najade armeringskorgar på byggarbetsplatsen med hjälp av industrirobotar. Industrirobotarna bygger armeringskorgarna utifrån en geometrisk modell för att sedan lyftas till gjutplatsen med hjälp av en kran. För att detta koncept ska bli en effektiv process måste man redan i projekteringsfasen kunna utvärdera armeringskorgarnas lyftbarhet för att kunna avgöra om det går att lyfta armeringskorgarna till gjutplatsen efter att de är färdigmonterade. Examensarbetets syfte är att undersöka vad som krävs för att ska skapa en numerisk modell med hjälp av data från en geometrisk modell på ett effektivt sätt för att sedan kunna avgöra om en armeringskorg går att lyfta. Denna studie är avgränsad till enbart en typ av armeringskorg som redan är skapad i CADprogrammet Tekla Structures av entreprenören Skanska Sverige AB. Processen som krävs för att skapa en numerisk modell med hjälp av en geometrisk modell är begränsad till analysprogrammet LUSAS Bridge och CAD-programmet Tekla Structures. För att kunna avgöra vad som krävs för att skapa en numerisk modell med hjälp av en geometrisk modell i analysprogrammet LUSAS Bridge utfördes en kartläggning. Kartläggningen omfattar de steg som krävs för att skapa en numerisk modell av en najad armeringskorg från en geometrisk modell och de svårigheter som finns längs vägen. För att kunna avgöra om den geometriska modellen av armeringskorgen är lyftbar skapades en linjär Finita Element Analys i analysprogrammet LUSAS Bridge. Analysen är skapad med hjälp av data från den geometriska modellen från Tekla Structures samt testresultat från en tidigare studie där man har provat hållfastheten och styvheten hos najade knutpunkter. Analysen är skapad för att efterlikna en armeringskorg till ett brofundament i skala 1:2 som lyfts i fyra punkter. Lyftpunkterna i denna analys är simulerade som stöd medan armeringskorgen utsätts för en accelerationskraft för att efterlikna ett lyft. Analysen utförs i två delar, en när de najade knutpunkterna har full styvhet och den andra när styvhet för knutpunkterna minskar. Detta för att se hur styvheten i knutpunkterna påverkar stabiliteten i armeringskorgen. Armeringskorgens lyftbarhet bedöms av två olika kriterier (1) spänning i armeringsjärnen och (2) krafter i knutpunkterna. Resultaten från studien visar att för att kunna skapa en numeriskmodell av en najad armeringskorg på ett effektivt sätt måste en del förbättringar göras i analysprogrammet LUSAS Bridge. Den process som är mest tidskrävande är när man skapar de najade knutpunkterna för armeringskorgen. För att det ska gå att genomföra detta på ett effektivt sätt måste en ny funktion skapas i LUSAS Bridge där programmet kan generera olika typer av knutpunkter automatiskt. Resultaten från analysen visade att spänningen av armeringsjärnen vid lyftpunkterna är det kriterium som är mest kritisk när armeringskorgen utsätts för lyft. Den maximala spänningen uppgick till 356 MPa med en utnyttjandegrad på 81,9% för armeringskorgen med full styvhet. När styvheten justerades visades det även här att spänningen är det kriterium som är mest kritiskt. Analysen för 50% styvhet visade en maximal spänning på 402 MPa med en utnyttjande grad på 92,4%, detta visar en ökning på 10,5% av utnyttjandegraden när styvheten halveras. VI Utifrån dessa resultat kan man konstatera att armeringskorgen går att lyfta om man använder fyra lyftpunkter. Man kan även utifrån resultaten se att en minskning av styvheten i knutpunkterna har en liten påverkar på armeringskorgens lyftbarhet och istället är det placeringen av armeringsjärnen som har störst betydelse.
Fox, James J. "Negative Reinforcement." Digital Commons @ East Tennessee State University, 2015. https://dc.etsu.edu/etsu-works/161.
Full textIzquierdo, Ayala Pablo. "Learning comparison: Reinforcement Learning vs Inverse Reinforcement Learning : How well does inverse reinforcement learning perform in simple markov decision processes in comparison to reinforcement learning?" Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-259371.
Full textDenna studie är en kvalitativ jämförelse mellan två olika inlärningsangreppssätt, “Reinforcement Learning” (RL) och “Inverse Reinforcement Learning” (IRL), om använder "Gridworld", en "Markov Decision-Process". Fokus ligger på den senare algoritmen, IRL, eftersom den anses relativt ny och få studier har i nuläget gjorts kring den. I studien är RL mer fördelaktig än IRL, som skapar en korrekt lösning i alla olika scenarier som presenteras i studien. Beteendet hos IRL-algoritmen kan dock förbättras vilket också visas och analyseras i denna studie.
Seymour, B. J. "Aversive reinforcement learning." Thesis, University College London (University of London), 2010. http://discovery.ucl.ac.uk/800107/.
Full textGonçalves, Madalena Telo. "BPI: capital reinforcement." Master's thesis, NSBE - UNL, 2013. http://hdl.handle.net/10362/11679.
Full textMacAleese, Kenneth R. "Examining conjugate reinforcement /." abstract and full text PDF (UNR users only), 2008. http://0-gateway.proquest.com.innopac.library.unr.edu/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3342622.
Full text"December, 2008." Includes bibliographical references (leaves 55-64). Library also has microfilm. Ann Arbor, Mich. : ProQuest Information and Learning Company, [2009]. 1 microfilm reel ; 35 mm. Online version available on the World Wide Web.
Tabell, Johnsson Marco, and Ala Jafar. "Efficiency Comparison Between Curriculum Reinforcement Learning & Reinforcement Learning Using ML-Agents." Thesis, Blekinge Tekniska Högskola, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-20218.
Full textYang, Zhaoyuan Yang. "Adversarial Reinforcement Learning for Control System Design: A Deep Reinforcement Learning Approach." The Ohio State University, 2018. http://rave.ohiolink.edu/etdc/view?acc_num=osu152411491981452.
Full textCortesi, Daniele. "Reinforcement Learning in Rogue." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2018. http://amslaurea.unibo.it/16138/.
Full textGirgin, Sertan. "Abstraction In Reinforcement Learning." Phd thesis, METU, 2007. http://etd.lib.metu.edu.tr/upload/12608257/index.pdf.
Full textSuay, Halit Bener. "Reinforcement Learning from Demonstration." Digital WPI, 2016. https://digitalcommons.wpi.edu/etd-dissertations/173.
Full textGao, Yang. "Argumentation accelerated reinforcement learning." Thesis, Imperial College London, 2014. http://hdl.handle.net/10044/1/26603.
Full textAlexander, John W. "Transfer in reinforcement learning." Thesis, University of Aberdeen, 2015. http://digitool.abdn.ac.uk:80/webclient/DeliveryManager?pid=227908.
Full textLeslie, David S. "Reinforcement learning in games." Thesis, University of Bristol, 2004. http://hdl.handle.net/1983/420b3f4b-a8b3-4a65-be23-6d21f6785364.
Full textSchneider, Markus. "Reinforcement Learning für Laufroboter." [S.l. : s.n.], 2007. http://nbn-resolving.de/urn:nbn:de:bsz:747-opus-344.
Full textWülfing, Jan [Verfasser], and Martin [Akademischer Betreuer] Riedmiller. "Stable deep reinforcement learning." Freiburg : Universität, 2019. http://d-nb.info/1204826188/34.
Full textFox, James J. "Differential Treatment and Reinforcement." Digital Commons @ East Tennessee State University, 2015. https://dc.etsu.edu/etsu-works/160.
Full textVolovik, Daniel. "Reinforcement in opinion dynamics." Thesis, Boston University, 2013. https://hdl.handle.net/2144/12872.
Full textI consider the evolution and acceptance of a new opinion in a population of unaware agents by using physics-based models of contagion spread. These models rely upon agentbased dynamics, in which an agent changes opinion by interactions with neighbors according to specific interactions. Most of these models have the feature that only a single input is required to change the opinion of an agent - an agent has no commitment to its current opinion and accepts a new idea at the slightest provocation. These single-input models fail to account for people's confidence in their own beliefs. Thus I study the concept of social reinforcement - that an agent adopts a new opinion only after multiple reinforcing prompts. Building on single-input models, I introduce two models of opinion spreading that incorporate a social reinforcement mechanism. (a) In the irreversible innovation and in the transient fad spreading models, a development is initially known only to a small portion of the population and subsequently spreads. An individual requires M > 1 interactions with an adopter before adopting the development. The ultimate extent of a transient fad depends critically on the characteristic time the fad keeps the attention of an adopting agent. (b) In the confident voter model, a voter can be in one of two opinion states and can additionally have two levels of commitment to an opinion: confident and vacillating. Upon interacting with an agent of a different opinion, a confident voter becomes less committed, or vacillating, but does not change opinion. However, a vacillating agent changes opinion by interacting with an agent of a different opinion. In two dimensions, the distribution of consensus times is characterized by two distinct times one that scales linearly with N and another that appears to scale as N^3/2. The longer time arises from configurations that fall into long-lived states that consist of multiple single-opinion stripes before consensus is reached.
Aguilera, Carolina. "Effects of reinforcement history for following rules on sensitivity to contingencies of reinforcement." Morgantown, W. Va. : [West Virginia University Libraries], 2000. http://etd.wvu.edu/templates/showETD.cfm?recnum=1764.
Full textTitle from document title page. Document formatted into pages; contains viii, 64 p. : ill. (some col.). Includes abstract. Includes bibliographical references (p. 54-56).
Trapp, Nancy L. "The Relative Susceptibilities of Interresponse Times and Post-Reinforcement Pauses to Differential Reinforcement." DigitalCommons@USU, 1987. https://digitalcommons.usu.edu/etd/5971.
Full textRottmann, Axel [Verfasser], and Wolfram [Akademischer Betreuer] Burgard. "Approaches to online reinforcement learning for miniature airships = Online Reinforcement Learning Verfahren für Miniaturluftschiffe." Freiburg : Universität, 2012. http://d-nb.info/1123473560/34.
Full textBlixt, Rikard, and Anders Ye. "Reinforcement learning AI to Hive." Thesis, KTH, Skolan för datavetenskap och kommunikation (CSC), 2013. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-134908.
Full textDenna rapport handlar om det unika brädspelet Hive. Rapporten kommer först berätta om vad Hive är och sedan gå in på detalj hur vi implementerar spelet, vad för problem vi stötte på och hur dessa problem löstes. Även så försökte vi göra en AI som lärde sig med hjälp av förstärkningslärning för att bli bra på spelet. Mer exakt så använde vi två AI som inte kunde något alls om Hive förutom spelreglerna. Detta visades vara omöjligt att genomföra inom rimlig tid, vår uppskattning är att det skulle ha tagit en bra stationär hemdator minst 140 år att lära en AI spel Hive på en godtagbar nivå.
Borgstrand, Richard, and Patrik Servin. "Reinforcement Learning AI till Fightingspel." Thesis, Blekinge Tekniska Högskola, Sektionen för datavetenskap och kommunikation, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-3113.
Full textArnekvist, Isac. "Reinforcement learning for robotic manipulation." Thesis, KTH, Skolan för datavetenskap och kommunikation (CSC), 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-216386.
Full textReinforcement learning har nyligen använts framgångsrikt för att lära icke-simulerade robotar uppgifter med hjälp av en normalized advantage function-algoritm (NAF), detta utan att använda mänskliga demonstrationer. Restriktioner på funktionsytorna som använts kan dock visa sig vara problematiska för generalisering till andra uppgifter. För poseestimering har i liknande sammanhang convolutional neural networks använts med bilder från kamera med konstant position. I vissa applikationer kan dock inte kameran garanteras hålla en konstant position och studier har visat att kvaliteten på policys kraftigt förvärras när kameran förflyttas. Denna uppsats undersöker användandet av NAF för att lära in en ”pushing”-uppgift med tydliga multimodala egenskaper. Resultaten jämförs med användandet av en deterministisk policy med minimala restriktioner på Q-funktionsytan. Vidare undersöks användandet av convolutional neural networks för pose-estimering, särskilt med hänsyn till slumpmässigt placerade kameror med okänd placering. Genom att definiera koordinatramen för objekt i förhållande till ett synligt referensobjekt så tros relativ pose-estimering kunna utföras även när kameran är rörlig och förflyttningen är okänd. NAF appliceras i denna uppsats framgångsrikt på enklare problem där datainsamling är distribuerad över flera robotar och inlärning sker på en central server. Vid applicering på ”pushing”- uppgiften misslyckas dock NAF, både vid träning på riktiga robotar och i simulering. Deep deterministic policy gradient (DDPG) appliceras istället på problemet och lär sig framgångsrikt att lösa problemet i simulering. Den inlärda policyn appliceras sedan framgångsrikt på riktiga robotar. Pose-estimering genom att använda en fast kamera implementeras också framgångsrikt. Genom att definiera ett koordinatsystem från ett föremål i bilden med känd position, i detta fall robotarmen, kan andra föremåls positioner beskrivas i denna koordinatram med hjälp av neurala nätverk. Dock så visar sig precisionen vara för låg för att appliceras på robotar. Resultaten visar ändå att denna metod, med ytterligare utökningar och modifikationer, skulle kunna lösa problemet.
Hengst, Bernhard Computer Science & Engineering Faculty of Engineering UNSW. "Discovering hierarchy in reinforcement learning." Awarded by:University of New South Wales. Computer Science and Engineering, 2003. http://handle.unsw.edu.au/1959.4/20497.
Full textCleland, Benjamin George. "Reinforcement Learning for Racecar Control." The University of Waikato, 2006. http://hdl.handle.net/10289/2507.
Full textKim, Min Sub Computer Science & Engineering Faculty of Engineering UNSW. "Reinforcement learning by incremental patching." Awarded by:University of New South Wales, 2007. http://handle.unsw.edu.au/1959.4/39716.
Full textPatrascu, Relu-Eugen. "Adaptive exploration in reinforcement learning." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk2/ftp01/MQ35921.pdf.
Full textJordan, Andrew R. "Wetpreg Reinforcement of Glulam Beams." Fogler Library, University of Maine, 1998. http://www.library.umaine.edu/theses/pdf/JordanA1998.pdf.
Full textStig, Fredrik. "3D-woven Reinforcement in Composites." Doctoral thesis, KTH, Lättkonstruktioner, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-70438.
Full textQC 20120131
Li, Jingxian. "Reinforcement learning using sensorimotor traces." Thesis, University of British Columbia, 2013. http://hdl.handle.net/2429/45590.
Full textKwan, Cho Ching Joe. "Geogrid reinforcement of railway ballast." Thesis, University of Nottingham, 2006. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.433991.
Full textChowdhury, Mina Munir-ul Mahmood. "Evolutionary and reinforcement fuzzy control." Thesis, University of Glasgow, 1999. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.299747.
Full textRummery, Gavin Adrian. "Problem solving with reinforcement learning." Thesis, University of Cambridge, 1995. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.363828.
Full textWard-Waller, Elizabeth 1982. "Corrosion resistance of concrete reinforcement." Thesis, Massachusetts Institute of Technology, 2005. http://hdl.handle.net/1721.1/31125.
Full text"June 2005."
Includes bibliographical references (leaves 39-40).
The objective of this thesis is to investigate the mechanism of corrosion of steel reinforcement in concrete and epoxy coated reinforcing bars as corrosion resistant alternatives. Several case studies explore the durability and deterioration issues for epoxy-coated bars discovered through 30 years of implementation in reinforced concrete structures. The methods for predicting the end of functional service life for structures reinforced with uncoated reinforcing bars and with epoxy-coated reinforcing bars are detailed and tested in a design problem in the final section of this report.
by Elizabeth Ward-Waller.
M.Eng.
McCabe, Jonathan Aiden. "Reinforcement learning in virtual reality." Thesis, University of Cambridge, 2010. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.608852.
Full textBudhraja, Karan Kumar. "Neuroevolution Based Inverse Reinforcement Learning." Thesis, University of Maryland, Baltimore County, 2016. http://pqdtopen.proquest.com/#viewpdf?dispub=10140581.
Full textMotivated by such learning in nature, the problem of Learning from Demonstration is targeted at learning to perform tasks based on observed examples. One of the approaches to Learning from Demonstration is Inverse Reinforcement Learning, in which actions are observed to infer rewards. This work combines a feature based state evaluation approach to Inverse Reinforcement Learning with neuroevolution, a paradigm for modifying neural networks based on their performance on a given task. Neural networks are used to learn from a demonstrated expert policy and are evolved to generate a policy similar to the demonstration. The algorithm is discussed and evaluated against competitive feature-based Inverse Reinforcement Learning approaches. At the cost of execution time, neural networks allow for non-linear combinations of features in state evaluations. These valuations may correspond to state value or state reward. This results in better correspondence to observed examples as opposed to using linear combinations. This work also extends existing work on Bayesian Non-Parametric Feature construction for Inverse Reinforcement Learning by using non-linear combinations of intermediate data to improve performance. The algorithm is observed to be specifically suitable for a linearly solvable non-deterministic Markov Decision Processes in which multiple rewards are sparsely scattered in state space. Performance of the algorithm is shown to be limited by parameters used, implying adjustable capability. A conclusive performance hierarchy between evaluated algorithms is constructed.
Piano, Francesco. "Deep Reinforcement Learning con PyTorch." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2022. http://amslaurea.unibo.it/25340/.
Full textKozlova, Olga. "Hierarchical and factored reinforcement learning." Paris 6, 2010. http://www.theses.fr/2010PA066196.
Full textBlows, Curtly. "Reinforcement learning for telescope optimisation." Master's thesis, Faculty of Science, 2019. http://hdl.handle.net/11427/31352.
Full textStigenberg, Jakob. "Scheduling using Deep Reinforcement Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-284506.
Full textI takt med radionätverks fortsatta utveckling under de senaste decenniernahar även komplexiteten och svårigheten i att effektivt utnyttja de tillgängligaresurserna ökat. I varje trådlöst nätverk finns en schemaläggare som styrtrafikflödet genom nätverket. Schemaläggaren är därmed en nyckelkomponentnär det kommer till att effektivt utnyttja de tillgängliga nätverksresurserna. Ien given nätverkspecifikation, t.ex. Long-Term Evoluation eller New Radio,är det givet vilka möjligheter till allokering som schemaläggaren kan använda.Hur schemaläggaren utnyttjar dessa möjligheter, det vill säga implementationenav schemaläggaren, är helt upp till varje enskild tillverkare. I tidigarearbete har fokus främst legat på att manuellt definera sorteringsvikter baseratpå, bland annat, Quality of Service (QoS) -klass, kanalkvalitet och fördröjning.Nätverkspaket skickas sedan givet viktordningen. I detta examensarbetepresenteras en ny metod för schemaläggning baserat på förstärkande inlärning.Metoden hanterar resursallokeraren som en svart låda och lär sig denbästa sorteringen direkt från indata (end-to-end) och hanterar även kontrollpaket.Ramverket utvärderades med ett Deep Q-Network i ett scenario medflera fördröjningskänsliga röstanvändare tillsammans med en (oändligt) storfilnedladdning. Algoritmen lärde sig att minska mängden försenade röstpaket,alltså öka QoS, med 29.6% samtidigt som den ökade total överföringshastighetmed 20.5, 23.5 och 16.2% i den 10:e, 50:e samt 90:e kvantilen.
Khouly, Mohamed A. "Analysis of soil-reinforcement interaction /." The Ohio State University, 1995. http://rave.ohiolink.edu/etdc/view?acc_num=osu1487863429092366.
Full textJesu, Alberto. "Reinforcement learning over encrypted data." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2021. http://amslaurea.unibo.it/23257/.
Full textSuggs, Sterling. "Reinforcement Learning with Auxiliary Memory." BYU ScholarsArchive, 2021. https://scholarsarchive.byu.edu/etd/9028.
Full textSkarvelas, Georgios Aristeidis. "Reinforcement and Bonded Block Modelling." Thesis, Luleå tekniska universitet, Institutionen för samhällsbyggnad och naturresurser, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:ltu:diva-85984.
Full textLiu, Chong. "Reinforcement learning with time perception." Thesis, University of Manchester, 2012. https://www.research.manchester.ac.uk/portal/en/theses/reinforcement-learning-with-time-perception(a03580bd-2dd6-4172-a061-90e8ac3022b8).html.
Full textTluk, von Toschanowitz Katharina. "Relevance determination in reinforcement learning." Tönning Lübeck Marburg Der Andere Verl, 2009. http://d-nb.info/993341128/04.
Full textBrinegar, Jennifer Lynn. "Self-control with running reinforcement." Diss., [Missoula, Mont.] : The University of Montana, 2007. http://etd.lib.umt.edu/theses/available/etd-01042008-104048/.
Full textBonneau, Maxime. "Reinforcement Learning for 5G Handover." Thesis, Linköpings universitet, Statistik och maskininlärning, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-140816.
Full textRound, Thomas. "Representation-Reinforcement and Australian Constitutionalism." Thesis, Griffith University, 2002. http://hdl.handle.net/10072/367951.
Full textThesis (PhD Doctorate)
Doctor of Philosophy (PhD)
School of Politics and Public Policy
Arts, Education and Law
Full Text