V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vznik
herních agentů s nadlidskou výkonností (například pro šachy a go, schopných natrénovaní pouze z her „sám se sebou“),
algoritmů pro řízení chlazení datacenter efektivnějších než lidští operátoři, nebo k rychlejšího kódu pro řazení či násobení
matic. Cílem kurzu je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na
teorii, tak na skutečnou implementaci.
Předmět je součástí meziuniverzitního programu prg.ai Minor (https://prg.ai/minor).
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.03.2024)
In recent years, reinforcement learning has been combined with deep neural networks, giving rise to game agents with
super-human performance (for example for Go or chess, capable of being trained solely by self-play), datacenter cooling
algorithms more efficient than human operators, or faster code for sorting or matrix multiplication. The goal of the course
is to introduce reinforcement learning employing deep neural networks, focusing both on the theory and on practical
implementations.
The course is part of the inter-university programme prg.ai Minor (https://prg.ai/minor).
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.03.2024)
Cíl předmětu -
Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
The goal of the course is to introduce reinforcement learning combined with deep neural networks. The course will focus both on theory as well as on practical aspects.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Podmínky zakončení předmětu -
Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Students pass the practicals by submitting sufficient number of assignments. The assignments are announced regularly the whole semester and are due in several weeks. Considering the rules for completing the practicals, it is not possible to retry passing it. Passing the practicals is not a requirement for going to the exam.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Literatura -
Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Požadavky ke zkoušce -
Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
The exam is written and consists of questions randomly chosen from a publicly known list. The requirements of the exam correspond to the course syllabus, in the level of detail which was presented on the lectures.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Sylabus -
Základní rámec zpětnovazebního učení
Tabulkové metody
Dynamické programování
Monte Carlo metody
Temporal-difference metody
N-krokový bootstrapping
Functionální aproximace
Hluboké Q sítě
Policy gradient metody
REINFORCE
REINFORCE with baseline
Actor-critic
Trust Region Policy Optimization
Proximal Policy Optimization
Doména spojitých akcí
Deep Deterministic policy gradient
Twin Delayed Deep Deterministic policy gradient
Prohledávání Monte Carlo tree search
AlphaZero architektura
Algoritmy využívající modely
MCTS s natrénovaným modelem
Částečně pozorovatelná prostředí
Optimalizace diskrétních proměnných
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Reinforcement learning framework
Tabular methods
Dynamic programming
Monte Carlo methods
Temporal-difference methods
N-step bootstrapping
Functional Approximation
Deep Q networks
Policy gradient methods
REINFORCE
REINFORCE with baseline
Actor-critic
Trust Region Policy Optimization
Proximal Policy Optimization
Continuous action domain
Deep Deterministic policy gradient
Twin Delayed Deep Deterministic policy gradient
Monte Carlo tree search
AlphaZero architecture
Model-based algorithms
MCTS with a learned model
Partially observable environments
Discrete variable optimization
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Vstupní požadavky -
Je vyžadována znalost jazyka Python a základní znalost PyTorch/TensorFlow (tu je možné získat na předmětu Hluboké učení NPFL138). Předchozí znalosti zpětnovazebního učení nejsou nutné.
Poslední úprava: Straka Milan, RNDr., Ph.D. (09.11.2023)
Python programming skills and basic PyTorch/Tensorflow skills are required (the latter can be obtained on the Deep Learning NPFL138 course). No previous knowledge of reinforcement learning is necessary.
Poslední úprava: Straka Milan, RNDr., Ph.D. (09.11.2023)