PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Seminář dobývání znalostí - NAIL121
Anglický název: Seminar on Data Mining
Zajišťuje: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2023
Semestr: letní
E-Kredity: 4
Rozsah, examinace: letní s.:1/2, KZ [HT]
Počet míst: neomezen
Minimální obsazenost: 1
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: Mgr. Marta Vomlelová, Ph.D.
Třída: Informatika Bc.
Anotace -
Poslední úprava: doc. Mgr. Robert Šámal, Ph.D. (01.06.2018)
Přednášky uvedou do možností programovacích nástrojů pro dobývání znalostí. V rámci semináře studenti postupně zpracují analýzu konkrétní větší datové sady a odevzdají jako semestrální práci.
Cíl předmětu -
Poslední úprava: Mgr. Marta Vomlelová, Ph.D. (14.05.2021)

Cílem předmětu je získat praktické zkušenosti s dobýváním znalostí. Věnuje se více přípravě dat, může předcházet přednášce Úvod do strojového učení.

Podmínky zakončení předmětu -
Poslední úprava: Mgr. Marta Vomlelová, Ph.D. (04.06.2018)

Pro úspěšné absolvování předmětu je třeba provést analýzu dat, prezentovat výsledky a odevzdat ve formě semestrální práce.

Literatura -
Poslední úprava: Mgr. Marta Vomlelová, Ph.D. (04.06.2018)

Willi Richert, Luis Pedro Coelho: Building Machine Learning Systems with Python, Packt Publishing 2013

Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning with Applications in R, Springer 2013

Sylabus -
Poslední úprava: doc. Mgr. Robert Šámal, Ph.D. (01.06.2018)

Cílem semináře je poskytnout konkrétní zkušenost analýzy dat. V přednáškové části si studenti zopakují a rozšíří dostupné nástroje, v seminární části budeme budou aplikovat metody na konkrétní datovou sadu a sdílet zkušenosti.

Svou analýzu odevzdají ve formě semestrální práce.

Přednášky pokryjí základy pro práci:

  • grafy (XY - scatterplot, krabicový - boxplot a další možnosti grafického zobrazení),
  • agregace a statistiky pro skupiny,
  • tvorba jednoduchých klasifikačních a regresních modelů,
  • vyhodnocení vzhledem k různým chybovým funkcím,
  • čištění dat (chybějící a odlehlé hodnoty).

Dle konkrétních analyzovaných dat se dále zaměříme na některá z témat:

  • časové řady,
  • převod textu na vektory tfidf,
  • klastrování a učení pravidel (apriori).

 
Univerzita Karlova | Informační systém UK