SubjectsSubjects(version: 835)
Course, academic year 2018/2019
   Login via CAS
Data Mining - NDBI023
Title in English: Dobývání znalostí
Guaranteed by: Department of Theoretical Computer Science and Mathematical Logic (32-KTIML)
Faculty: Faculty of Mathematics and Physics
Actual: from 2015
Semester: summer
E-Credits: 9
Hours per week, examination: summer s.:4/2 C+Ex [hours/week]
Capacity: unlimited
Min. number of students: unlimited
State of the course: taught
Language: Czech
Teaching methods: full-time
Guarantor: doc. RNDr. Iveta Mrázová, CSc.
Class: Informatika Mgr. - Teoretická informatika
Informatika Mgr. - Softwarové systémy
Classification: Informatics > Database Systems, Theoretical Computer Science
Annotation -
Last update: RNDr. František Mráz, CSc. (07.05.2015)

A rapid development in the area of data mining is motivated by the necessity to "translate" huge amounts of processed and stored data into meaningful information. This lecture is focused on understanding principal concepts and techniques applicable to data mining. Basic principles of their application to novel solutions of practical tasks will be discussed in detail. These comprise mainly business and Web applications, but others as well.
Aim of the course - Czech
Last update: RNDr. František Mráz, CSc. (07.05.2015)

Naučit základní metody dobývání znalostí z dat.

Course completion requirements - Czech
Last update: RNDr. František Mráz, CSc. (07.05.2015)

A) Cvičení

V doprovodném Moodle-kurzu budou postupně zveřejňované úkoly a testy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Řešení lze do systému vkládat postupně a průběžně ho upravovat. Časem odevzdání je čas kliknutí na tlačítko "Odeslat řešení k oznámkování". Po kliknutí na toto tlačítko řešení už nelze opravovat, ale lze zažádat e-mailem učitele o vrácení do stavu rozpracování. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 4 úkoly.

Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. 

Upozornění: V případě, že bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožné, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z těchto N řešitelů získá pouze dolní celou část z B/N bodů.

Testy:

Kromě úkolů, budou postupně zveřejňovány on-line testy. Za první tzv. vstupní test lze získat maximálně 10 bodů a v průběhu semestru budou zadány další kratší testy, za které bude možné získat dohromady maximálně 10 bodů. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné. Na druhou stranu daný test lze řešit až třikrát s tím, že se započítává nejlepší výsledek.

Pro získání zápočtu je nutné:

  1. Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
  2. Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body. 

Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získať dodatečné body

  • za předvedení řešení úkolu zadaného na cvičení - 1 bod,
  • za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) - dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Bez dodatečných bodů tak lze za celý semestr získat až 75 bodů. Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 35% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce. I když student získá z cvičení více než 75 bodů (po započítání dodatečných bodů), tak tyto bodou započítány pouze jako 35% do hodnocení zkoušky.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Přednáška se koná dvakrát týdně podle rozvrhu. Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 35% do celkového hodnocení posluchače. Dále se budou v rámci přednášky psát dvě písemky

  • 10.4.2018 a
  • !5.5.2018

Každá z písemek přispěje 10% k celkovému hodnocení. Samotná zkouška na konci semestru se započítá 45% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl
100%–86% 85%–71% 70%–56% méně než 56%

Literature - Czech
Last update: RNDr. František Mráz, CSc. (07.05.2015)

Aggarwal C. C. (Ed.): Social Network Data Analytics, Springer, 2011

Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015

Berka P.: Dobývání znalostí z databází, Academia, 2003

Berry M. J. A., Linoff G.: Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997

Liu B.: Web Data Mining, Springer, 2007

Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012

Syllabus -
Last update: RNDr. František Mráz, CSc. (07.05.2015)

1. Introduction to the area of data mining

  • Motivation for data mining and its importance for practice, an overview of frequent data mining tasks, main data mining methodologies.
  • Fundamental principles of database systems, data warehouses and the OLAP-technology (On-Line Analytical Processing), construction of data cubes, examples of data mining queries.

2. Fundamental paradigms of the data mining process

  • Data gathering, preparation and preprocessing - sampling, variability and confidence, discretization of numeric attributes and handling nonnumerical variables, replacement of missing and empty values, series variables.
  • Transformation, reduction and cleaning of the data - relationships among the attributes (hypothesis testing, correlation, regression, discriminant and cluster analysis).
  • Main principles of machine learning - supervised training, self-organization, semi-supervised learning, training set, test set and validation set, generalization and overfitting, Occam´s razor.
  • Validation of the obtained results - cross-validation, overall accuracy, confusion matrix, learning curve, lift curve, ROC curve, combination of models (bagging, boosting).

3. Techniques for association rule mining

  • Market basket analysis - frequent itemsets, association rules, their formulation and main characteristics.
  • Generation of frequent item combinations - algorithm apriori, "frequent-pattern-growth"-techniques (FP-Growth and TD-FP-Growth), combinational data analysis.
  • Constraint-based search for interesting rules (specification of time, items, etc.).

4. Approaches to data classification and prediction

  • Decision trees and their induction - algorithms ID3, C4.5, CART and CHAID.
  • Bayessian models - Bayessian classifiers, Bayessian networks and techniques for their training and inference.
  • Nature-inspired models - artificial neural networks of the perceptron type, SVM-machines, ELM-networks, genetic algorithms.
  • Analogy based methods - instance-based learning, k-nearest neighbour classifiers, case-based reasoning.

5. Methods for cluster analysis

  • The k-means algorithm, the choice of a suitable metric, evaluation of the obtained results (cluster validity), representation and visualization of the found clusters.
  • Clustering based on the fuzzy set approach (FCM-clustering), neural approach and hierarchical clustering.

6. Social networks and their analysis

  • Social networks - their representation and characteristics, SF-networks, link analysis and the algorithms PageRank and HITS.
  • Applications - community discovery, evolution in social networks, link prediction and sentiment analysis.

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html