PředmětyPředměty(verze: 953)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Hluboké zpětnovazební učení - NPFL139
Anglický název: Deep Reinforcement Learning
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2023
Semestr: letní
E-Kredity: 8
Rozsah, examinace: letní s.:3/4, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl139
Garant: RNDr. Milan Straka, Ph.D.
Neslučitelnost : NPFL122
Záměnnost : NPFL122
Je neslučitelnost pro: NPFL122
Je záměnnost pro: NPFL122
Anotace -
V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vznik herních agentů s nadlidskou výkonností (například pro šachy a go, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter efektivnějších než lidští operátoři, nebo k rychlejšího kódu pro řazení či násobení matic. Cílem kurzu je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci. Předmět je součástí meziuniverzitního programu prg.ai Minor (https://prg.ai/minor).
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (16.03.2024)
Cíl předmětu -

Cílem přednášky je seznámení se zpětnovazebním učením zkombinovaným s hlubokými neuronovými sítěmi. Přednáška se zaměří jak na teorii, tak na skutečné použití zpětnovazebního učení.

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Podmínky zakončení předmětu -

Zápočet je udělován za vypracování dostatečného množství úloh. Úlohy jsou zadávány pravidelně celý semestr a na vypracování každé z nich je několik týdnů. Vzhledem ke způsobu obdržení zápočtu není možné jeho získání opakovat. Získání zápočtu není podmínkou k připuštění ke zkoušce.

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Literatura -
  • Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction, Second edition, 2018.
  • David Silver et al.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm https://arxiv.org/abs/1712.01815
  • Julian Schrittwieser et al.: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model https://arxiv.org/abs/1911.08265
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Požadavky ke zkoušce -

Zkouška je písemná a skládá se z náhodně volených otázek z předem známého seznamu. Požadavky zkoušky odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce.

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Sylabus -

Základní rámec zpětnovazebního učení

Tabulkové metody

  • Dynamické programování
  • Monte Carlo metody
  • Temporal-difference metody
  • N-krokový bootstrapping

Functionální aproximace

Hluboké Q sítě

Policy gradient metody

  • REINFORCE
  • REINFORCE with baseline
  • Actor-critic
  • Trust Region Policy Optimization
  • Proximal Policy Optimization

Doména spojitých akcí

  • Deep Deterministic policy gradient
  • Twin Delayed Deep Deterministic policy gradient

Prohledávání Monte Carlo tree search

  • AlphaZero architektura

Algoritmy využívající modely

  • MCTS s natrénovaným modelem

Částečně pozorovatelná prostředí

Optimalizace diskrétních proměnných

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2023)
Vstupní požadavky -

Je vyžadována znalost jazyka Python a základní znalost PyTorch/TensorFlow (tu je možné získat na předmětu Hluboké učení NPFL138). Předchozí znalosti zpětnovazebního učení nejsou nutné.

Poslední úprava: Straka Milan, RNDr., Ph.D. (09.11.2023)
 
Univerzita Karlova | Informační systém UK