PředmětyPředměty(verze: 802)
Předmět, akademický rok 2016/2017
   Přihlásit přes CAS
Dobývání znalostí - NDBI023
Anglický název: Data Mining
Zajišťuje: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2015
Semestr: letní
E-Kredity: 9
Rozsah, examinace: letní s.:4/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Garant: doc. RNDr. Iveta Mrázová, CSc.
Třída: Informatika Mgr. - Teoretická informatika
Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Databázové systémy, Teoretická informatika
Anotace -
Poslední úprava: G_I (16.03.2011)

Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobývání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí. Součástí přednášky/cvičení bude návrh a vývoj jednoduché aplikace umožňující detailní pochopení principů dobývání znalostí a jejich aplikace v praxi, především v oblasti ekonomie a WWW, ale i dalších. Předpokládají se znalosti v rozsahu bakalářského kursu NDBI025 Databázové systémy.
Cíl předmětu
Poslední úprava: T_KTI (23.05.2008)

Naučit základní metody dobývání znalostí z dat.

Literatura
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (02.05.2015)

Aggarwal C. C. (Ed.): Social Network Data Analytics, Springer, 2011

Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015

Berka P.: Dobývání znalostí z databází, Academia, 2003

Berry M. J. A., Linoff G.: Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997

Liu B.: Web Data Mining, Springer, 2007

Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012

Sylabus -
Poslední úprava: RNDr. František Mráz, CSc. (04.05.2015)

1. Úvod do problematiky dobývání znalostí

  • Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.
  • Základní principy databázových systémů, datových skladů a technologie OLAP (On-Line Analytical Processing), konstrukce datových krychlí, příklady dotazů pro dobývání znalostí.

2. Základní paradigmata procesu dobývání znalostí

  • Pořizování, příprava a předzpracování dat - vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.
  • Transformace, redukce a čištění dat - vztahy mezi veličinami (testování hypotéz, korelační, regresní, diskriminační a shluková analýza).
  • Základní principy strojového učení - učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.
  • Vyhodnocování získaných výsledků - křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

3. Metody pro dobývání asociačních pravidel

  • Analýza nákupního košíku - časté položky, asociační pravidla, jejich formulace a základní charakteristiky.
  • Generování kombinací - algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.
  • Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

4. Metody pro klasifikaci a predikci dat

  • Rozhodovací stromy a jejich indukce - algoritmy ID3, C4.5, CART a CHAID.
  • Bayesovské modely - Bayesovské klasifikátory, Bayesovské sítě a techniky pro jejich učení a inferenci.
  • Přírodou inspirované modely - umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.
  • Metody založené na analogii - učení založené na instancích, klasifikace podle nejbližšího souseda, případové usuzování.

5. Metody pro klastrovou analýzu

  • k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.
  • Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.

6. Sociální sítě a jejich analýza

  • Sociální sítě - jejich reprezentace a vlastnosti, SF-sítě, analýza linků a algoritmy PageRank a HITS.
  • Aplikace - detekce komunit, evoluce v sociálních sítích, predikce linků a analýza sentimentu.

 
Univerzita Karlova | Informační systém UK