V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“),
algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na
skutečnou implementaci.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
In recent years, reinforcement learning has been combined with deep neural networks, giving rise to agents with super-human performance (for example for Chess, Go, Dota2, or StarcraftII, capable of being trained solely by self-play), datacenter cooling
algorithms being 50% more efficient than trained human operators, or improved machine translation. The goal of the course is to introduce reinforcement learning employing deep neural networks, focusing both on the theory and on practical implementations.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
Cíl předmětu -
Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
The goal of the course is to introduce reinforcement learning combined with deep neural networks. The course will focus both on theory as well as on practical aspects.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
Podmínky zakončení předmětu -
Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
Students pass the practicals by submitting sufficient number of assignments. The assignments are announced regularly the whole semester and are due in several weeks. Considering the rules for completing the practicals, it is not possible to retry passing it. Passing the practicals is not a requirement for going to the exam.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
Literatura -
Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Poslední úprava: Straka Milan, RNDr., Ph.D. (10.05.2022)
Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Poslední úprava: Straka Milan, RNDr., Ph.D. (10.05.2022)
Požadavky ke zkoušce -
Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.
Poslední úprava: Straka Milan, RNDr., Ph.D. (15.06.2020)
The exam is written and consists of questions randomly chosen from a publicly known list. The requirements of the exam correspond to the course syllabus, in the level of detail which was presented on the lectures.
Poslední úprava: Straka Milan, RNDr., Ph.D. (15.06.2020)
Sylabus -
Základní rámec zpětnovazebního učení
Tabulkové metody
Dynamické programování
Monte Carlo metody
Temporal-difference metody
N-krokový bootstrapping
Functionální aproximace
Hluboké Q sítě
Policy gradient metody
REINFORCE
REINFORCE with baseline
Actor-critic
Trust Region Policy Optimization
Proximal Policy Optimization
Doména spojitých akcí
Deep Deterministic policy gradient
Twin Delayed Deep Deterministic policy gradient
Prohledávání Monte Carlo tree search
AlphaZero architektura
Algoritmy využívající modely
MCTS s natrénovaným modelem
Částečně pozorovatelná prostředí
Optimalizace diskrétních proměnných
Poslední úprava: Straka Milan, RNDr., Ph.D. (10.05.2022)
Reinforcement learning framework
Tabular methods
Dynamic programming
Monte Carlo methods
Temporal-difference methods
N-step bootstrapping
Functional Approximation
Deep Q networks
Policy gradient methods
REINFORCE
REINFORCE with baseline
Actor-critic
Trust Region Policy Optimization
Proximal Policy Optimization
Continuous action domain
Deep Deterministic policy gradient
Twin Delayed Deep Deterministic policy gradient
Monte Carlo tree search
AlphaZero architecture
Model-based algorithms
MCTS with a learned model
Partially observable environments
Discrete variable optimization
Poslední úprava: Straka Milan, RNDr., Ph.D. (10.05.2020)
Vstupní požadavky -
Je vyžadována znalost jazyka Python a frameworku TensorFlow (nebo obdobného frameworku pro práci s hlubokými sítěmi), v rozsahu přednášky NPFL114. Předchozí znalosti zpětnovazebního učení nejsou nutné.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
Python programming skills and Tensorflow skills (or any other deep learning framework) are required, to the extent of the NPFL114 course. No previous knowledge of reinforcement learning is necessary.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)