Předměty

Hluboké zpětnovazební učení - NPFL139

Anglický název:	Deep Reinforcement Learning
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2023
Semestr:	letní
E-Kredity:	8
Rozsah, examinace:	letní s.:3/4, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční
Další informace:	http://ufal.mff.cuni.cz/courses/npfl139

Garant:	RNDr. Milan Straka, Ph.D.
Neslučitelnost :	NPFL122
Záměnnost :	NPFL122
Je neslučitelnost pro:	NPFL122
Je záměnnost pro:	NPFL122

Výsledky anket Termíny zkoušek Rozvrh LS Nástěnka

Anotace -

Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.03.2024)

V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vznik herních agentů s nadlidskou výkonností (například pro šachy a go, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter efektivnějších než lidští operátoři, nebo k rychlejšího kódu pro řazení či násobení matic. Cílem kurzu je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci. Předmět je součástí meziuniverzitního programu prg.ai Minor (https://prg.ai/minor).

Cíl předmětu -

Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (11.05.2023)

Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.

Podmínky zakončení předmětu -

Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (11.05.2023)

Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.

Literatura -

Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (11.05.2023)

Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.

David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815

Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265

Požadavky ke zkoušce -

Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (11.05.2023)

Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.

Sylabus -

Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (11.05.2023)

Základní rámec zpětnovazebního učení

Tabulkové metody

Dynamické programování

Monte Carlo metody

Temporal-difference metody

N-krokový bootstrapping

Functionální aproximace

Hluboké Q sítě

Policy gradient metody

REINFORCE

REINFORCE with baseline

Actor-critic

Trust Region Policy Optimization

Proximal Policy Optimization

Doména spojitých akcí

Deep Deterministic policy gradient

Twin Delayed Deep Deterministic policy gradient

Prohledávání Monte Carlo tree search

AlphaZero architektura

Algoritmy využívající modely

MCTS s natrénovaným modelem

Částečně pozorovatelná prostředí

Optimalizace diskrétních proměnných

Vstupní požadavky -

Poslední úprava: RNDr. Milan Straka, Ph.D. (09.11.2023)

Je vyžadována znalost jazyka Python a základní znalost PyTorch/TensorFlow (tu je možné získat na předmětu Hluboké učení NPFL138). Předchozí znalosti zpětnovazebního učení nejsou nutné.