PředmětyPředměty(verze: 902)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Dobývání znalostí - NDBX023
Anglický název: Data Mining
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019
Semestr: letní
E-Kredity: 9
Rozsah, examinace: letní s.:4/2 [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Je zajišťováno předmětem: NDBI023
Garant: doc. RNDr. Iveta Mrázová, CSc.
Třída: Informatika Mgr. - Teoretická informatika
Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Databázové systémy, Teoretická informatika
Prerekvizity : {NXXX027, NXXX028, NXXX029, NXXX032, NXXX038, NXXX039, NXXX040, NXXX067, NXXX068, NXXX069}
Neslučitelnost : NDBI023
Záměnnost : NDBI023
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: RNDr. Jan Hric (28.05.2020)
Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobývání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí. Součástí kurzu bude i jednoduchý projekt s využitím metod pro dobývání znalostí v praxi, především v oblasti ekonomie a WWW, ale i dalších. Předpokládá se předchozí zvládnutí základních matematických dovedností a programování na úrovni běžného bakalářského studia informatiky.
Cíl předmětu -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

Pochopit základní principy metod dobývání znalostí z dat a naučit se využívat tyto metody pro řešení úloh z praxe.

Podmínky zakončení předmětu -
Poslední úprava: RNDr. František Mráz, CSc. (02.03.2021)

A) Cvičení

V doprovodném Moodle-kurzu budou postupně zveřejňované úkoly a testy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Řešení lze do systému vkládat postupně a průběžně ho upravovat. Časem odevzdání je čas kliknutí na tlačítko "Odevzdat úkol". Po kliknutí na toto tlačítko řešení už nelze opravovat, ale lze zažádat e-mailem učitele o vrácení do stavu rozpracování. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 3 úkoly.

Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. Alternativně lze řešení odevzdat ve formě Jupyterovského notebooku

Upozornění: V případě, že bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožné, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z těchto N řešitelů získá pouze dolní celou část z B/N bodů.

Testy:

Kromě úkolů, budou postupně zveřejňovány on-line testy. Za první tzv. vstupní test lze získat maximálně 10 bodů a v průběhu semestru budou zadány další kratší testy, za které bude možné získat dohromady maximálně 10 bodů. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné.

Pro získání zápočtu je nutné:

  1. Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
  2. Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body. 

Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získať dodatečné body

  • za předvedení řešení úkolu zadaného na cvičení – 1 bod,
  • za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) – dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Bez dodatečných bodů tak lze za celý semestr získat až 65 bodů. Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 40% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce. I když student získá z cvičení více než 65 bodů (po započítání dodatečných bodů), tak tyto bodou započítány pouze jako 40% do hodnocení zkoušky.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Přednáška se koná jednou týdně podle rozvrhu. Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 40% do celkového hodnocení posluchače. Dále se bude v rámci přednášky psát písemný test. Datum konání testu bude vypsáno na začátku semestru a bude zveřejněno v doprovodném Moodle kurzu. Písemný test přispěje 15% k celkovému hodnocení. Samotná zkouška na konci semestru se započítává 45% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl
100%–86% 85%–71% 70%–56% méně než 56%

Literatura -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

  1. Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015
  2. Berka P.: Dobývání znalostí z databází, Academia, 2003
  3. Liu B.: Web Data Mining, Springer, 2007
  4. Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012

Požadavky ke zkoušce -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

Zkouška se skládá z písemné a ústní části. Písemná část předchází části ústní, její nesplnění znamená, že celá zkouška je hodnocena známkou nevyhověl(a) a ústní částí se již nepokračuje. Nesložení ústní části znamená, že při příštím termínu je nutno opakovat obě části zkoušky, písemnou i ústní. Známka ze zkoušky se stanoví na základě bodového hodnocení písemné i ústní části zkoušky a bodového hodnocení získaného za práci během semestru (viz podmínky zakončení předmětu).

Písemná část zkoušky bude sestávat ze tří otázek k tématům, která korespondují se sylabem přednášky a/nebo látce procvičované na cvičení.

Požadavky ke zkoušce odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce, resp. cvičení. Nutnou podmínkou pro účast na zkoušce je získání zápočtu.

Sylabus -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

  1. Úvod do problematiky dobývání znalostí

    • Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.
    • Základní principy strojového učení – učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.

  2. Základní paradigmata procesu dobývání znalostí

    • Pořizování, příprava a předzpracování dat – vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.
    • Transformace, redukce a čištění dat – vztahy mezi veličinami (odhad vzájemné podobnosti vzorů, testování hypotéz, korelační, regresní, diskriminační a shluková analýza), redukce dimenzionality.

    • Vyhodnocování získaných výsledků – křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

  3. Metody pro dobývání asociačních pravidel

    • Analýza nákupního košíku – časté položky, asociační pravidla, jejich formulace a základní charakteristiky.
    • Generování kombinací – algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.
    • Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

  4. Metody pro klastrovou analýzu

    • k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.
    • Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.
    • Pokročilé přístupy & škálovatelné techniky (CLARANS, BIRCH, CURE), analýza odlehlých vzorů

  5. Metody pro klasifikaci a predikci dat

    • Rozhodovací stromy a jejich indukce – algoritmy ID3, C4.5, CART a CHAID.
    • Pravděpodobnostní klasifikátory – Bayesovské modely a techniky pro jejich učení a inferenci.
    • Přírodou inspirované modely – umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.

 
Univerzita Karlova | Informační systém UK