PředmětyPředměty(verze: 861)
Předmět, akademický rok 2019/2020
  
Hluboké zpětnovazební učení - NPFL122
Anglický název: Deep Reinforcement Learning
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019 do 2019
Semestr: zimní
E-Kredity: 6
Rozsah, examinace: zimní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl122
Garant: RNDr. Milan Straka, Ph.D.
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci.
Cíl předmětu -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.

Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.

Literatura -
Poslední úprava: Mgr. Petr Jedelský (23.09.2019)
Požadavky ke zkoušce -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Zkouška sestává z písemné části a z nepovinné ústní části, kde studenti mohou reagovat na dotazy ke svému řešení a odpovídat na doplňující otázky.

Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.

Sylabus - angličtina
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (13.05.2019)

Reinforcement learning framework

Tabular methods

  • Dynamic programming
  • Monte Carlo methods
  • Temporal-difference methods
  • N-step bootstrapping

Functional Approximation

Deep Q networks

Policy gradient methods

  • REINFORCE
  • REINFORCE with baseline
  • Actor-critic
  • Trust Region Policy Optimization
  • Proximal Policy Optimization

Continuous action domain

  • Deep Deterministic policy gradient
  • Twin Delayed Deep Deterministic policy gradient
  • Soft actor critic

Monte Carlo tree search

  • AlphaZero architecture

Partially observable environments

Model-based algorithms

Vstupní požadavky -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Je vyžadována znalost jazyka Python a frameworku TensorFlow (nebo obdobného frameworku pro práci s hlubokými sítěmi), v rozsahu přednášky NPFL114. Předchozí znalosti zpětnovazebního učení nejsou nutné.

 
Univerzita Karlova | Informační systém UK