PředmětyPředměty(verze: 902)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Posilované učení a jeho aplikace - NAIL117
Anglický název: Reinforcement Learning and its Applications
Zajišťuje: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: zimní
E-Kredity: 3
Rozsah, examinace: zimní s.:1/1 [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: zrušen
Jazyk výuky: angličtina
Způsob výuky: prezenční
Garant: Mgr. Karel Macek
Třída: Informatika Mgr. - Teoretická informatika
Kategorizace předmětu: Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: RNDr. Jan Hric (27.04.2018)
Teorie posilovaného učení vychází z poznatků o chování racionálních agentů v proměnném prostředí a zasazuje je do kontextu strojového učení, teorie řízení a statistické teorie rozhodování. Algoritmy posilovaného učení nacházejí uplatnění od řízení fyzikálních systémů po návrh strategií pro hraní počítačových her.
Cíl předmětu -
Poslední úprava: RNDr. Jan Hric (27.04.2018)

Uvést studenty do problematiky posilovaného učení, seznámit je s důležitými pojmy, základními algoritmy a umožnit jejich základní procvičení v jazyce Python.

Podmínky zakončení předmětu -
Poslední úprava: RNDr. Jan Hric (27.04.2018)

Je třeba získat zápočet a složit zkoušku (v libovolném pořadí). Zápočet se uděluje za řešení domácích úkolů a případných dodatečných úkolů na konci semestru. Povaha kontroly podmínek k udělení zápočtu vylučuje možnost jejího opakování, což znamená, že když nenasbíráte dostatek bodů, zápočet nelze získat jinak.

Zkouška se skládá z písemné a ústní části. Písemná část předchází části ústní, její nesplnění znamená, že termín zkoušky je hodnocen známkou nevyhověl(a) a ústní částí se již nepokračuje.

Literatura -
Poslední úprava: RNDr. Jan Hric (09.05.2018)

Richard S. Sutton, Andrew G. Barto. Reinforcement learning: An introduction. Vol. 1. No. 1. Cambridge: MIT Press, 1998.

Busoniu, L., Babuska, R., De Schutter, B., & Ernst, D. (2010). Reinforcement learning and dynamic programming using function approximators (Vol. 39). CRC press.

Sylabus -
Poslední úprava: RNDr. Jan Hric (30.04.2018)

Úvod do posilovaného učení

  • základní prvky, terminologie
  • úvodní příklady

Tabulární metody

  • víceruký bandita
  • konečné markovské rozhodovací procesy
  • dynamické programování
  • metody Monte Carlo
  • TD metody

Aproximační metody

  • kategorizace aproximačních metod
  • využití neuronových sítí

Předmět je vyučován (pouze) v angličtině.

 
Univerzita Karlova | Informační systém UK