Last update: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
In recent years, reinforcement learning has been combined with deep neural networks, giving rise to agents with super-human performance (for example for Chess, Go, Dota2, or StarcraftII, capable of being trained solely by self-play), datacenter cooling
algorithms being 50% more efficient than trained human operators, or improved machine translation. The goal of the course is to introduce reinforcement learning employing deep neural networks, focusing both on the theory and on practical implementations.
Last update: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“),
algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na
skutečnou implementaci.
Aim of the course -
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
The goal of the course is to introduce reinforcement learning combined with deep neural networks. The course will focus both on theory as well as on practical aspects.
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.
Course completion requirements -
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Students pass the practicals by submitting sufficient number of assignments. The assignments are announced regularly the whole semester and are due in several weeks. Considering the rules for completing the practicals, it is not possible to retry passing it. Passing the practicals is not a requirement for going to the exam.
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.
Literature -
Last update: RNDr. Milan Straka, Ph.D. (10.05.2022)
Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Last update: RNDr. Milan Straka, Ph.D. (10.05.2022)
Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Requirements to the exam -
Last update: RNDr. Milan Straka, Ph.D. (15.06.2020)
The exam is written and consists of questions randomly chosen from a publicly known list. The requirements of the exam correspond to the course syllabus, in the level of detail which was presented on the lectures.
Last update: RNDr. Milan Straka, Ph.D. (15.06.2020)
Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.
Syllabus -
Last update: RNDr. Milan Straka, Ph.D. (10.05.2020)
Reinforcement learning framework
Tabular methods
Dynamic programming
Monte Carlo methods
Temporal-difference methods
N-step bootstrapping
Functional Approximation
Deep Q networks
Policy gradient methods
REINFORCE
REINFORCE with baseline
Actor-critic
Trust Region Policy Optimization
Proximal Policy Optimization
Continuous action domain
Deep Deterministic policy gradient
Twin Delayed Deep Deterministic policy gradient
Monte Carlo tree search
AlphaZero architecture
Model-based algorithms
MCTS with a learned model
Partially observable environments
Discrete variable optimization
Last update: RNDr. Milan Straka, Ph.D. (10.05.2022)
Základní rámec zpětnovazebního učení
Tabulkové metody
Dynamické programování
Monte Carlo metody
Temporal-difference metody
N-krokový bootstrapping
Functionální aproximace
Hluboké Q sítě
Policy gradient metody
REINFORCE
REINFORCE with baseline
Actor-critic
Trust Region Policy Optimization
Proximal Policy Optimization
Doména spojitých akcí
Deep Deterministic policy gradient
Twin Delayed Deep Deterministic policy gradient
Prohledávání Monte Carlo tree search
AlphaZero architektura
Algoritmy využívající modely
MCTS s natrénovaným modelem
Částečně pozorovatelná prostředí
Optimalizace diskrétních proměnných
Entry requirements -
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Python programming skills and Tensorflow skills (or any other deep learning framework) are required, to the extent of the NPFL114 course. No previous knowledge of reinforcement learning is necessary.
Last update: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
Je vyžadována znalost jazyka Python a frameworku TensorFlow (nebo obdobného frameworku pro práci s hlubokými sítěmi), v rozsahu přednášky NPFL114. Předchozí znalosti zpětnovazebního učení nejsou nutné.