Data mining, which exists as a separate area at the overlap between mathematics and computer sience since the early nineties, relies methodologically on machine learning, statistics, and the theory of databases. Whereas machine learning and database methods are covered by other lectures, the present lecture is the first of two dealing with the connection between data mining and statistics. It reviews statistical methods implemented in key examples of three main kinds of commercial data mining system, as well as in one academic systems used in teaching data mining at several Czech universities, including ours. This lecture is freely continued by the summer term lecture DBI029: Statistical aspects of data mining.
- Data mining and its connection to statistics
- Main types of data mining systems
- Statistical methods in Clementine, an example of a general data mining system
- Statistical methods in DecisionSite, an example of a system for on-line decision support by means of data mining
- Matlab as an example of a more universal system including data mining methods
- Descriptive statistics in Matlab
- Linear regression and its generalizations in Matlab
- Multivariate statistical analysis in Matlab
- Hypotheses testing in Matlab
- 4FT-Miner - an academic data mining system combining observational logic and the analysis of four-fold tables
- Quantifiers of observational logic based on parameter estimation
- Quantifiers of observational logic based on hypotheses testing
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (24.04.2006)
Dobývání znalostí z dat, které jako samostatná oblast na styku matematiky a informatiky existuje od první poloviny devadesátých let, spočívá metodologicky na strojovém učení, statistice a teorii databází. Zatímco metody strojového učení a databáze jsou náplní jiných přednášek, tento předmět je prvním ze dvou zabývajících se souvislostí dobývání znalostí z dat a statistiky. Podává přehled statistických metod implementovaných v klíčových příkladech tří hlavních typů komerčních systémů pro dobývání znalostí z dat, jakož i v jednom akademickém systému, používaném na několika vysokých školách, včetně MFF. V letním semestru na něj volně navazuje předmět DBI029: Statistické aspekty dobývání znalostí z dat.
- Dobývání znalostí z dat a jeho souvislost se statistikou
- Hlavní typy systémů pro dobývání znalostí z dat
- Statistické metody v Clementine, příkladu obecného systému pro dobývání znalostí z dat
- Statistické metody v DecisionSite, příkladu systému pro on-line podporu rozhodování pomocí dobývání znalostí z dat
- Systém Matlab jako příklad univerzálnějšího systému zahrnujícího metody pro dobývání znalostí z dat
- Popisné statistiky v systému Matlab
- Lineární regrese a její zobecnění v systému Matlab
- Mnohorozměrná statistická analýza v systému Matlab
- Testování hypotéz v systému Matlab
- 4FT-Miner - akademický systém pro dobývání znalostí z dat kombinující observační logiku a analýzu čtyřpolních tabulek
- Kvantifikátory observační logiky založené na odhadech parametrů
- Kvantifikátory observační logiky založené na testování hypotéz
Last update: Holeňa Martin, prof. RNDr. Ing., CSc. (24.04.2006)
|