Subjects

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Data Mining - NDBI023

Title:	Dobývání znalostí
Guaranteed by:	Department of Theoretical Computer Science and Mathematical Logic (32-KTIML)
Faculty:	Faculty of Mathematics and Physics
Actual:	from 2015 to 2019
Semester:	summer
E-Credits:	9
Hours per week, examination:	summer s.:4/2, C+Ex [HT]
Capacity:	unlimited
Min. number of students:	unlimited
4EU+:	no
Virtual mobility / capacity:	no
State of the course:	taught
Language:	Czech
Teaching methods:	full-time
Teaching methods:	full-time

Guarantor:	doc. RNDr. Iveta Mrázová, CSc.
Class:	Informatika Mgr. - Teoretická informatika Informatika Mgr. - Softwarové systémy
Classification:	Informatics > Database Systems, Theoretical Computer Science

Opinion survey results Examination dates Schedule Noticeboard

Annotation -

Last update: RNDr. Jan Hric (28.05.2020)

A rapid development in the area of data mining is motivated by the necessity to "translate" huge amounts of processed and stored data into meaningful information. This lecture is focused on understanding principal concepts and techniques applicable to data mining. Basic principles of their application to novel solutions of practical tasks will be discussed in detail. These comprise mainly business and Web applications, but others as well.

Aim of the course - Czech

Last update: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

Naučit základní metody dobývání znalostí z dat.

Literature - Czech

Last update: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

Aggarwal C. C. (Ed.): Social Network Data Analytics, Springer, 2011

Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015

Berka P.: Dobývání znalostí z databází, Academia, 2003

Berry M. J. A., Linoff G.: Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997

Liu B.: Web Data Mining, Springer, 2007

Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012

Syllabus -

Last update: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

1. Introduction to the area of data mining

Motivation for data mining and its importance for practice, an overview of frequent data mining tasks, main data mining methodologies.

Fundamental principles of database systems, data warehouses and the OLAP-technology (On-Line Analytical Processing), construction of data cubes, examples of data mining queries.

2. Fundamental paradigms of the data mining process

Data gathering, preparation and preprocessing - sampling, variability and confidence, discretization of numeric attributes and handling nonnumerical variables, replacement of missing and empty values, series variables.

Transformation, reduction and cleaning of the data - relationships among the attributes (hypothesis testing, correlation, regression, discriminant and cluster analysis).

Main principles of machine learning - supervised training, self-organization, semi-supervised learning, training set, test set and validation set, generalization and overfitting, Occam´s razor.

Validation of the obtained results - cross-validation, overall accuracy, confusion matrix, learning curve, lift curve, ROC curve, combination of models (bagging, boosting).

3. Techniques for association rule mining

Market basket analysis - frequent itemsets, association rules, their formulation and main characteristics.

Generation of frequent item combinations - algorithm apriori, "frequent-pattern-growth"-techniques (FP-Growth and TD-FP-Growth), combinational data analysis.

Constraint-based search for interesting rules (specification of time, items, etc.).

4. Approaches to data classification and prediction

Decision trees and their induction - algorithms ID3, C4.5, CART and CHAID.

Bayessian models - Bayessian classifiers, Bayessian networks and techniques for their training and inference.

Nature-inspired models - artificial neural networks of the perceptron type, SVM-machines, ELM-networks, genetic algorithms.

Analogy based methods - instance-based learning, k-nearest neighbour classifiers, case-based reasoning.

5. Methods for cluster analysis

The k-means algorithm, the choice of a suitable metric, evaluation of the obtained results (cluster validity), representation and visualization of the found clusters.

Clustering based on the fuzzy set approach (FCM-clustering), neural approach and hierarchical clustering.

6. Social networks and their analysis

Social networks - their representation and characteristics, SF-networks, link analysis and the algorithms PageRank and HITS.

Applications - community discovery, evolution in social networks, link prediction and sentiment analysis.

Last update: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

1. Úvod do problematiky dobývání znalostí

Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.

Základní principy databázových systémů, datových skladů a technologie OLAP (On-Line Analytical Processing), konstrukce datových krychlí, příklady dotazů pro dobývání znalostí.

2. Základní paradigmata procesu dobývání znalostí

Pořizování, příprava a předzpracování dat - vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.

Transformace, redukce a čištění dat - vztahy mezi veličinami (testování hypotéz, korelační, regresní, diskriminační a shluková analýza).

Základní principy strojového učení - učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.

Vyhodnocování získaných výsledků - křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

3. Metody pro dobývání asociačních pravidel

Analýza nákupního košíku - časté položky, asociační pravidla, jejich formulace a základní charakteristiky.

Generování kombinací - algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.

Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

4. Metody pro klasifikaci a predikci dat

Rozhodovací stromy a jejich indukce - algoritmy ID3, C4.5, CART a CHAID.

Bayesovské modely - Bayesovské klasifikátory, Bayesovské sítě a techniky pro jejich učení a inferenci.

Přírodou inspirované modely - umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.

Metody založené na analogii - učení založené na instancích, klasifikace podle nejbližšího souseda, případové usuzování.

5. Metody pro klastrovou analýzu

k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.

Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.

6. Sociální sítě a jejich analýza

Sociální sítě - jejich reprezentace a vlastnosti, SF-sítě, analýza linků a algoritmy PageRank a HITS.

Aplikace - detekce komunit, evoluce v sociálních sítích, predikce linků a analýza sentimentu.