Data mining relies methodologically on machine learning, statistics, and the theory of databases. This is the first
of two lectures dealing with its connection to statistics. It reviews statistical methods implemented in key
examples of three main kinds of commercial data mining system, as well as in one academic systems used in
teaching data mining at several Czech universities, including ours. This lecture is freely continued by the summer
term lecture NAIL105 Internet and Classification Methods.
Last update: T_KTI (05.04.2016)
Dobývání znalostí z dat spočívá metodologicky na strojovém učení, statistice a teorii databází. Tento předmět je
prvním ze dvou zabývajících se souvislostí dobývání znalostí z dat a statistiky. Podává přehled statistických metod
implementovaných v klíčových příkladech tří hlavních typů komerčních systémů pro dobývání znalostí z dat, jakož i v
jednom akademickém systému, používaném na několika vysokých školách, včetně MFF. V letním semestru na něj
volně navazuje předmět NAIL105 Internet a klasifikační metody.
Last update: T_KTI (05.04.2016)
Aim of the course -
Teach the basic statistical methods for data mining.
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (29.06.2019)
Naučit základní statistické metody dobývání znalostí z dat.
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (29.06.2019)
Course completion requirements -
Presenting the results of homeworks from seminars.
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (29.06.2019)
Předvedení vysledků úkolů ze cvičení.
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (29.06.2019)
Literature -
M. Berthold, D.J. Hand. Intelligent Data Analysis. Berlin, Springer, 1999
Last update: T_KTI (05.04.2016)
Martin Holeňa. Statistické aspekty dobývání znalostí z dat. Praha, nakladatelství Karolinum, 2006, skripta.
M. Berthold, D.J. Hand. Intelligent Data Analysis. Berlin, Springer, 1999
Last update: T_KTI (05.04.2016)
Teaching methods - Czech
Jednou za 2 týdny 2 hodiny přednášky, ktere studenti se zájmem o získání zápočtu doplňují cvičeními v prostředí Matlab, s časovou náročností rovnež zhruba 2 hodiny za 2 týdny. Cvičení mohou studenti vypracovat samostatně doma a vyučujíciho podle potřeby kontaktovat kvůli konzultacím.
Last update: HOLENA/MFF.CUNI.CZ (04.10.2008)
Requirements to the exam - Czech
Předvedení vysledků cvičení.
Last update: HOLENA/MFF.CUNI.CZ (02.10.2008)
Syllabus -
Data mining, which exists as a separate area at the overlap between mathematics and computer sience since the early nineties, relies methodologically on machine learning, statistics, and the theory of databases. Whereas machine learning and database methods are covered by other lectures, the present lecture is the first of two dealing with the connection between data mining and statistics. It reviews statistical methods implemented in key examples of three main kinds of commercial data mining system, as well as in one academic systems used in teaching data mining at several Czech universities, including ours. This lecture is freely continued by the summer term lecture DBI029: Statistical aspects of data mining.
Data mining and its connection to statistics
Main types of data mining systems
Statistical methods in Clementine, an example of a general data mining system
Statistical methods in DecisionSite, an example of a system for on-line decision support by means of data mining
Matlab as an example of a more universal system including data mining methods
Descriptive statistics in Matlab
Linear regression and its generalizations in Matlab
Multivariate statistical analysis in Matlab
Hypotheses testing in Matlab
4FT-Miner - an academic data mining system combining observational logic and the analysis of four-fold tables
Quantifiers of observational logic based on parameter estimation
Quantifiers of observational logic based on hypotheses testing
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (24.04.2006)
Dobývání znalostí z dat, které jako samostatná oblast na styku matematiky a informatiky existuje od první poloviny devadesátých let, spočívá metodologicky na strojovém učení, statistice a teorii databází. Zatímco metody strojového učení a databáze jsou náplní jiných přednášek, tento předmět je prvním ze dvou zabývajících se souvislostí dobývání znalostí z dat a statistiky. Podává přehled statistických metod implementovaných v klíčových příkladech tří hlavních typů komerčních systémů pro dobývání znalostí z dat, jakož i v jednom akademickém systému, používaném na několika vysokých školách, včetně MFF. V letním semestru na něj volně navazuje předmět DBI029: Statistické aspekty dobývání znalostí z dat.
Dobývání znalostí z dat a jeho souvislost se statistikou
Hlavní typy systémů pro dobývání znalostí z dat
Statistické metody v Clementine, příkladu obecného systému pro dobývání znalostí z dat
Statistické metody v DecisionSite, příkladu systému pro on-line podporu rozhodování pomocí dobývání znalostí z dat
Systém Matlab jako příklad univerzálnějšího systému zahrnujícího metody pro dobývání znalostí z dat
Popisné statistiky v systému Matlab
Lineární regrese a její zobecnění v systému Matlab
Mnohorozměrná statistická analýza v systému Matlab
Testování hypotéz v systému Matlab
4FT-Miner - akademický systém pro dobývání znalostí z dat kombinující observační logiku a analýzu čtyřpolních tabulek
Kvantifikátory observační logiky založené na odhadech parametrů
Kvantifikátory observační logiky založené na testování hypotéz
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (24.04.2006)