PředmětyPředměty(verze: 908)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Hluboké zpětnovazební učení - NPFL122
Anglický název: Deep Reinforcement Learning
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: zimní
E-Kredity: 5
Rozsah, examinace: zimní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl122
Garant: RNDr. Milan Straka, Ph.D.
Anotace -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci.
Cíl předmětu -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.

Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.

Literatura -
Poslední úprava: RNDr. Milan Straka, Ph.D. (10.05.2022)
  • Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
  • David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
  • Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Požadavky ke zkoušce -
Poslední úprava: RNDr. Milan Straka, Ph.D. (15.06.2020)

Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.

Sylabus -
Poslední úprava: RNDr. Milan Straka, Ph.D. (10.05.2022)

Základní rámec zpětnovazebního učení

Tabulkové metody

  • Dynamické programování
  • Monte Carlo metody
  • Temporal-difference metody
  • N-krokový bootstrapping

Functionální aproximace

Hluboké Q sítě

Policy gradient metody

  • REINFORCE
  • REINFORCE with baseline
  • Actor-critic
  • Trust Region Policy Optimization
  • Proximal Policy Optimization

Doména spojitých akcí

  • Deep Deterministic policy gradient
  • Twin Delayed Deep Deterministic policy gradient

Prohledávání Monte Carlo tree search

  • AlphaZero architektura

Algoritmy využívající modely

  • MCTS s natrénovaným modelem

Částečně pozorovatelná prostředí

Optimalizace diskrétních proměnných

Vstupní požadavky -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Je vyžadována znalost jazyka Python a frameworku TensorFlow (nebo obdobného frameworku pro práci s hlubokými sítěmi), v rozsahu přednášky NPFL114. Předchozí znalosti zpětnovazebního učení nejsou nutné.

 
Univerzita Karlova | Informační systém UK