Optimalizace herní strategie agenta zpětnovazebním učením

dc.contributor.advisorKonopík Miloslav, Ing. Ph.D.
dc.contributor.authorSeják, Michal
dc.contributor.refereeSido Jakub, Ing.
dc.date.accepted2020-6-16
dc.date.accessioned2020-11-10T00:39:00Z
dc.date.available2019-10-7
dc.date.available2020-11-10T00:39:00Z
dc.date.issued2020
dc.date.submitted2020-5-7
dc.description.abstractAgenti zpětnovazebného učení v současnosti patří mezi nejlepší způsoby, jak řešit obecné úlohy. Konkrétně algoritmus AlphaGo Zero (AZ) se v hraní mnoha deskových her drží v současnosti na nejvyšších příčkách. Nicméně, hodí se pouze na práci s deterministickými adverzálními prostředími a jako takový nenachází ve skutečném světě mnohá uplatnění, jelikož obdržení veškeré informace o běžných procesech je takřka nemožné. V této práci analyzujeme způsob, jakým AZ dosahuje svých výsledků a jak lze tento algoritmus upravit tak, aby řešil obecné stochastické neadverzální problémy, přičemž zavádíme techniku kontroly redundance, pomocí níž lze efektivněji prořezávat stavový strom. Na závěr navrhneme vlastní prostředí a otestujeme, jakých výsledků dosahuje obyčený algoritmus DQN ve srovnání s upraveným AZ bez a s kontrolou redundance, kde ukážeme, že verze AZ využívající kontrolu redundance dosahuje mnohem kvalitnějších výsledků, než ostatní dva algoritmy.cs
dc.description.abstract-translatedReinforcement learning agents are one of the best methods of general problem solving. The algorithm AlphaGo Zero (AZ) in particular achieved state-of-the-art results in solving multiple board games. However, it is suited only for solving adversary deterministic environments and finds few real-life applications, as finding complete information about real-life processes is next to impossible. In our work, we analyze how exactly does AZ function and how it can be adjusted for solving non-adversary stochastic environments, while introducing a redundancy checking technique to prune the state tree more effectively. Finally, we design a custom environment and examine how the simple DQN algorithm compares to the adjusted AZ both with and without redundancy checking, showing that the version utilizing the redundancy checking heuristic remarkably outperforms both the DQN and the unamplified AZ.en
dc.description.resultObhájenocs
dc.format74 scs
dc.format.mimetypeapplication/pdf
dc.identifier82945
dc.identifier.urihttp://hdl.handle.net/11025/41802
dc.language.isoenen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectzpětnovazebné učenícs
dc.subjectumělá inteligencecs
dc.subjectprostředícs
dc.subjectagentcs
dc.subjectstrategiecs
dc.subject.translatedreinforcement learningen
dc.subject.translatedartificial intelligenceen
dc.subject.translatedenvironmenten
dc.subject.translatedagenten
dc.subject.translatedstrategyen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelBakalářskýcs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleOptimalizace herní strategie agenta zpětnovazebním učenímcs
dc.title.alternativeReinforcement Learning for Optimizing Agent Strategiesen
dc.typebakalářská prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=82945

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
bachelors.pdf
Size:
849.86 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A17B0344P_Posudek.pdf
Size:
130.18 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A17B0344P_Hodnoceni.pdf
Size:
104.32 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A17B0344P_Obhajoba.pdf
Size:
74.62 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce