Předměty

Hluboké zpětnovazební učení - NPFL122

Anglický název:	Deep Reinforcement Learning
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2023
Semestr:	zimní
E-Kredity:	5
Rozsah, examinace:	zimní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	nevyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční
Další informace:	http://ufal.mff.cuni.cz/courses/npfl122

Garant:	RNDr. Milan Straka, Ph.D.
Neslučitelnost :	NPFL139
Záměnnost :	NPFL139
Je neslučitelnost pro:	NPFL139
Je záměnnost pro:	NPFL139

Výsledky anket Termíny zkoušek Rozvrh Nástěnka

Anotace -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci.

Cíl předmětu -

Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.

Podmínky zakončení předmětu -

Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.

Literatura -

Poslední úprava: RNDr. Milan Straka, Ph.D. (10.05.2022)

Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.

David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815

Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265

Požadavky ke zkoušce -

Poslední úprava: RNDr. Milan Straka, Ph.D. (15.06.2020)

Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.

Sylabus -

Poslední úprava: RNDr. Milan Straka, Ph.D. (10.05.2022)

Základní rámec zpětnovazebního učení

Tabulkové metody

Dynamické programování

Monte Carlo metody

Temporal-difference metody

N-krokový bootstrapping

Functionální aproximace

Hluboké Q sítě

Policy gradient metody

REINFORCE

REINFORCE with baseline

Actor-critic

Trust Region Policy Optimization

Proximal Policy Optimization

Doména spojitých akcí

Deep Deterministic policy gradient

Twin Delayed Deep Deterministic policy gradient

Prohledávání Monte Carlo tree search

AlphaZero architektura

Algoritmy využívající modely

MCTS s natrénovaným modelem

Částečně pozorovatelná prostředí

Optimalizace diskrétních proměnných

Vstupní požadavky -

Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Je vyžadována znalost jazyka Python a frameworku TensorFlow (nebo obdobného frameworku pro práci s hlubokými sítěmi), v rozsahu přednášky NPFL114. Předchozí znalosti zpětnovazebního učení nejsou nutné.