Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Posilované učení a jeho aplikace - NAIL117

Anglický název:	Reinforcement Learning and its Applications
Zajišťuje:	Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2022
Semestr:	zimní
E-Kredity:	3
Rozsah, examinace:	zimní s.:1/1, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	zrušen
Jazyk výuky:	angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční

Garant:	Mgr. Karel Macek
Třída:	Informatika Mgr. - Teoretická informatika
Kategorizace předmětu:	Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika

Výsledky anket Termíny zkoušek Rozvrh Nástěnka

Anotace -

Poslední úprava: RNDr. Jan Hric (27.04.2018)

Teorie posilovaného učení vychází z poznatků o chování racionálních agentů v proměnném prostředí a zasazuje je do kontextu strojového učení, teorie řízení a statistické teorie rozhodování. Algoritmy posilovaného učení nacházejí uplatnění od řízení fyzikálních systémů po návrh strategií pro hraní počítačových her.

Cíl předmětu -

Poslední úprava: RNDr. Jan Hric (27.04.2018)

Uvést studenty do problematiky posilovaného učení, seznámit je s důležitými pojmy, základními algoritmy a umožnit jejich základní procvičení v jazyce Python.

Podmínky zakončení předmětu -

Poslední úprava: RNDr. Jan Hric (27.04.2018)

Je třeba získat zápočet a složit zkoušku (v libovolném pořadí). Zápočet se uděluje za řešení domácích úkolů a případných dodatečných úkolů na konci semestru. Povaha kontroly podmínek k udělení zápočtu vylučuje možnost jejího opakování, což znamená, že když nenasbíráte dostatek bodů, zápočet nelze získat jinak.

Zkouška se skládá z písemné a ústní části. Písemná část předchází části ústní, její nesplnění znamená, že termín zkoušky je hodnocen známkou nevyhověl(a) a ústní částí se již nepokračuje.

Literatura -

Poslední úprava: RNDr. Jan Hric (09.05.2018)

Richard S. Sutton, Andrew G. Barto. Reinforcement learning: An introduction. Vol. 1. No. 1. Cambridge: MIT Press, 1998.

Busoniu, L., Babuska, R., De Schutter, B., & Ernst, D. (2010). Reinforcement learning and dynamic programming using function approximators (Vol. 39). CRC press.

Sylabus -

Poslední úprava: RNDr. Jan Hric (30.04.2018)

Úvod do posilovaného učení

základní prvky, terminologie

úvodní příklady

Tabulární metody

víceruký bandita

konečné markovské rozhodovací procesy

dynamické programování

metody Monte Carlo

TD metody

Aproximační metody

kategorizace aproximačních metod

využití neuronových sítí

Předmět je vyučován (pouze) v angličtině.