PředmětyPředměty(verze: 964)
Předmět, akademický rok 2024/2025
   Přihlásit přes CAS
Úvod do strojového učení v systému R - NPFL054
Anglický název: Introduction to Machine Learning with R
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2024
Semestr: letní
E-Kredity: 5
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: zrušen
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/course/npfl054
Garant: doc. Mgr. Barbora Vidová Hladká, Ph.D.
RNDr. Martin Holub, Ph.D.
Třída: DS, matematická lingvistika
Informatika Bc.
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika, Počítačová a formální lingvistika
Neslučitelnost : NPFL129
Záměnnost : NPFL129
Je neslučitelnost pro: NPFL129
Je záměnnost pro: NPFL129
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Přednášky pokrývají jak teoretické základy, tak praktické algoritmy strojového učení (SU). Je kladen důraz na komplexní pochopení procesu SU, který zahrnuje analýzu dat, volbu metody SU, ladění parametrů učení a statistické vyhodnocení a porovnání výsledných modelů. Cvičení jsou zaměřena na využití standardních knihoven statistického systému R v úlohách SU. Všechny domácí úkoly jsou praktická cvičení s použitím R, přičemž poslední úkol je nejrozsáhlejší a zahrnuje komplexní zpracování typického, nepříliš náročného problému a zpracování zprávy o variantách řešení a jejich vyhodnocení.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (15.05.2020)
Cíl předmětu -

Cílem kurzu je představit proces strojového učení z teoretického i praktického hlediska. Student se seznámí s teoretickými základy vybraných algoritmů a naučí se prakticky řešit úlohy strojového učení pomocí knihoven statistického systému R. Student musí zvládnout komplexní zpracování ukázkového problému strojového učení a dokumentaci o variantách řešení a jejich vyhodnocení.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (15.05.2020)
Podmínky zakončení předmětu -

Studenti musí během semestru 1) prezentovat nebodovaný domácí úkol, 2) odevzdat dva bodované domácí úkoly tak, aby celkový počet bodů překročil stanovený bodový limit, a 3) napsat dva bodované testy tak, aby celkový počet bodů překročil stanovený bodový limit.

Získání zápočtu je podmínkou pro konání zkoušky.

Podrobnosti k domácím úkolům a testům jsou uvedeny na webové stránce předmětu.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.04.2021)
Literatura -

James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani: An Introduction to Statistical Learning. Springer, 2013.

Lantz, Brett: Machine Learning with R. Packt Publishing, 2013.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (12.05.2020)
Požadavky ke zkoušce -

Zkouška se koná ústně, při hodnocení studenta se však berou do úvahy také výsledky písemných testů a domácích úkolů. Získání zápočtu je podmínkou pro konání zkoušky.

Požadavky ke zkoušce odpovídají sylabu předmětu. Podrobnosti jsou uvedené na webové stránce předmětu.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.04.2021)
Sylabus -

Strojové učení - základní koncepty, ukázky praktických aplikací, teoretické základy. Učení s učitelem, učení bez učitele. Klasifikační a regresní úlohy. Klasifikace do dvou nebo více tříd. Trénovací a testovací příklady. Vektory příznaků. Cílový atribut a predikční funkce. Vývojový cyklus strojového učení. Prokletí dimenzionality. Metody shlukování.

Rozhodovací stromy. Algoritmus učení, kritéria větvení a prořezávání. Náhodné lesy.

Lineární a logistická regrese. Metoda nejmenších čtverců. Diskriminativní klasifikátor.

Učení založené na příkladech. Algoritmus k-NN.

Naivní Bayesův klasifikátor. Bayesovské sítě.

Metoda podpůrných vektorů. Klasifikátor pro lineárně separabilní a neseparabilní třídy. Kernelové funkce.

Metody pro kombinaci prediktorů. Nestabilní algoritmy učení. Bagging a boosting. Algoritmus AdaBoost.

Parametry ve strojového učení, ladění hyperparametrů. Prohledávání prostoru parametrů. Metoda největšího spádu. Metoda maximální věrohodnosti.

Vyhodnocování experimentů. Práce s testovacími daty. Výběrová chyba, generalizační chyba. Křížová validace, metoda leave-one-out. Metoda bootstrap. Míry úspěšnosti. Vyhodnocování binárních klasifikátorů. Křivka ROC.

Statistické testy. Statistické hypotézy, jednovýběrový a dvouvýběrový t-test, chí-kvadrát testy. Hladina významnosti, p-hodnota. Použití statistických testů pro vyhodnocování klasifikátorů. Intervaly spolehlivosti.

Přetrénování. Jak odhalit a zabránit. Regularizace. Dekompozice chyby modelu na vychýlení a rozptyl.

Obecné principy selekce příznaků. Výběr příznaků pomocí informačního zisku, hladové algoritmy. Redukce dimenze, analýza hlavních komponent.

Základy neuronových sítí. Jednoduchý perceptron. Neuronové sítě s jednou skrytou vrstvou. Vícevrstvé dopředné modely, algoritmus zpětné propagace. Poznámky k hlubokému učení.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (15.05.2020)
 
Univerzita Karlova | Informační systém UK