PředmětyPředměty(verze: 825)
Předmět, akademický rok 2017/2018
   Přihlásit přes CAS
Dobývání znalostí - NDBI023
Anglický název: Data Mining
Zajišťuje: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2015
Semestr: letní
E-Kredity: 9
Rozsah, examinace: letní s.:4/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Garant: doc. RNDr. Iveta Mrázová, CSc.
Třída: Informatika Mgr. - Teoretická informatika
Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Databázové systémy, Teoretická informatika
Anotace -
Poslední úprava: G_I (16.03.2011)

Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobývání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí. Součástí přednášky/cvičení bude návrh a vývoj jednoduché aplikace umožňující detailní pochopení principů dobývání znalostí a jejich aplikace v praxi, především v oblasti ekonomie a WWW, ale i dalších. Předpokládají se znalosti v rozsahu bakalářského kursu NDBI025 Databázové systémy.
Cíl předmětu
Poslední úprava: T_KTI (23.05.2008)

Naučit základní metody dobývání znalostí z dat.

Podmínky zakončení předmětu
Poslední úprava: RNDr. František Mráz, CSc. (01.03.2018)

A) Cvičení

V doprovodném Moodle-kurzu budou postupně zveřejňované úkoly a testy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Řešení lze do systému vkládat postupně a průběžně ho upravovat. Časem odevzdání je čas kliknutí na tlačítko "Odeslat řešení k oznámkování". Po kliknutí na toto tlačítko řešení už nelze opravovat, ale lze zažádat e-mailem učitele o vrácení do stavu rozpracování. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 4 úkoly.

Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. 

Upozornění: V případě, že bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožné, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z těchto N řešitelů získá pouze dolní celou část z B/N bodů.

Testy:

Kromě úkolů, budou postupně zveřejňovány on-line testy. Za první tzv. vstupní test lze získat maximálně 10 bodů a v průběhu semestru budou zadány další kratší testy, za které bude možné získat dohromady maximálně 10 bodů. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné. Na druhou stranu daný test lze řešit až třikrát s tím, že se započítává nejlepší výsledek.

Pro získání zápočtu je nutné:

  1. Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
  2. Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body. 

Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získať dodatečné body

  • za předvedení řešení úkolu zadaného na cvičení - 1 bod,
  • za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) - dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Bez dodatečných bodů tak lze za celý semestr získat až 75 bodů. Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 35% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce. I když student získá z cvičení více než 75 bodů (po započítání dodatečných bodů), tak tyto bodou započítány pouze jako 35% do hodnocení zkoušky.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Přednáška se koná dvakrát týdně podle rozvrhu. Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 35% do celkového hodnocení posluchače. Dále se budou v rámci přednášky psát dvě písemky

  • 10.4.2018 a
  • !5.5.2018

Každá z písemek přispěje 10% k celkovému hodnocení. Samotná zkouška na konci semestru se započítá 45% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl
100%–86% 85%–71% 70%–56% méně než 56%

Literatura
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (02.05.2015)

Aggarwal C. C. (Ed.): Social Network Data Analytics, Springer, 2011

Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015

Berka P.: Dobývání znalostí z databází, Academia, 2003

Berry M. J. A., Linoff G.: Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997

Liu B.: Web Data Mining, Springer, 2007

Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012

Sylabus -
Poslední úprava: RNDr. František Mráz, CSc. (04.05.2015)

1. Úvod do problematiky dobývání znalostí

  • Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.
  • Základní principy databázových systémů, datových skladů a technologie OLAP (On-Line Analytical Processing), konstrukce datových krychlí, příklady dotazů pro dobývání znalostí.

2. Základní paradigmata procesu dobývání znalostí

  • Pořizování, příprava a předzpracování dat - vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.
  • Transformace, redukce a čištění dat - vztahy mezi veličinami (testování hypotéz, korelační, regresní, diskriminační a shluková analýza).
  • Základní principy strojového učení - učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.
  • Vyhodnocování získaných výsledků - křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

3. Metody pro dobývání asociačních pravidel

  • Analýza nákupního košíku - časté položky, asociační pravidla, jejich formulace a základní charakteristiky.
  • Generování kombinací - algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.
  • Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

4. Metody pro klasifikaci a predikci dat

  • Rozhodovací stromy a jejich indukce - algoritmy ID3, C4.5, CART a CHAID.
  • Bayesovské modely - Bayesovské klasifikátory, Bayesovské sítě a techniky pro jejich učení a inferenci.
  • Přírodou inspirované modely - umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.
  • Metody založené na analogii - učení založené na instancích, klasifikace podle nejbližšího souseda, případové usuzování.

5. Metody pro klastrovou analýzu

  • k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.
  • Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.

6. Sociální sítě a jejich analýza

  • Sociální sítě - jejich reprezentace a vlastnosti, SF-sítě, analýza linků a algoritmy PageRank a HITS.
  • Aplikace - detekce komunit, evoluce v sociálních sítích, predikce linků a analýza sentimentu.

 
Univerzita Karlova | Informační systém UK