PředmětyPředměty(verze: 845)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Hluboké zpětnovazební učení - NPFL122
Anglický název: Deep Reinforcement Learning
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018 do 2018
Semestr: zimní
E-Kredity: 6
Rozsah, examinace: zimní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl122
Garant: RNDr. Milan Straka, Ph.D.
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření herních agentů s nadlidskou výkonností (kupříkladu pro go, šachy či 1v1 Dota2, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii tak na skutečnou implementaci.
Cíl předmětu -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.

Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.

Literatura -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.

John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel: Trust Region Policy Optimization https://arxiv.org/abs/1502.05477

John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov: Proximal Policy Optimization Algorithms https://arxiv.org/abs/1707.06347

David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815

Požadavky ke zkoušce -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Zkouška sestává z písemné části a z nepovinné ústní části, kde studenti mohou reagovat na dotazy ke svému řešení a odpovídat na doplňující otázky.

Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.

Sylabus - angličtina
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

Reinforcement learning framework

Tabular methods

  • Dynamic programming
  • Monte Carlo methods
  • Temporal-difference methods
  • N-step bootstrapping

Approximate solution methods

Eligibility traces

Deep Q networks

Policy gradient methods

  • REINFORCE
  • REINFORCE with baseline
  • Actor-critic
  • Trust Region Policy Optimization
  • Proximal Policy Optimization

Continuous action domain

Monte Carlo tree search

Training networks with discrete latent variables

Vstupní požadavky -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Je vyžadována znalost jazyka Python a frameworku TensorFlow (nebo obdobného frameworku pro práci s hlubokými sítěmi), v rozsahu přednášky NPFL114. Předchozí znalosti zpětnovazebního učení nejsou nutné.

 
Univerzita Karlova | Informační systém UK