Tento jednosemestrální úvodní kurz je určen výhradně pro studenty studující v anglickém jazyce. Cílem kurzu je
představit teoretické základy a základní algoritmy strojového učení. Výuka může být přizpůsobena potřebám a
vzdělání přihlášených studentů. Předpokládáme základní znalost pravděpodobnosti a statistiky. Pro studenty se
slabšími matematickými základy je určen podpůrný kurz NPFL081. Cvičení jsou aplikačně závislá a jejich cílem je
získání praktických zkušeností s aplikací strojového učení v oblasti počítačového zpracování přirozeného jazyka.
Poslední úprava: G_I (26.05.2015)
This one-semester introductory course is intended only for students studying in English. The aim of the course is to
introduce both theoretical foundations and basic machine learning algorithms. The course can be adjusted to the
needs of the attending students. Introductory knowledge of probability and statistics is required. For students with
weaker mathematical background there is a supportive course NPFL081. The lab sessions are application-
dependent and aim at practical experience with machine learning algorithms related to the NLP field.
Podmínky zakončení předmětu -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (14.11.2019)
Ústní zkouška, povinný písemný test. Získání zápočtu je podmínkou pro konání zkoušky. Viz detaily požadavků v sylabus.
Poslední úprava: RNDr. Martin Holub, Ph.D. (13.06.2019)
Oral exam, obligatory written test. Obtaining the course credit is an obligatory prerequisite for taking the exam. For detailed requirements, see the syllabus.
Literatura -
Poslední úprava: G_I (26.05.2015)
● Hladká Barbora, Holub Martin: A Gentle Introduction to Machine Learning for Natural Language Processing: How to start in 16 practical steps. In: Language and Linguistics Compass, Vol. 9, No. 2, pp. 55-76, 2015.
● Lantz, Brett: Machine Learning with R. Packt Publishing, 2013.
● James, Gareth, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning. Springer, 2013.
Poslední úprava: G_I (26.05.2015)
● Hladká Barbora, Holub Martin: A Gentle Introduction to Machine Learning for Natural Language Processing: How to start in 16 practical steps. In: Language and Linguistics Compass, Vol. 9, No. 2, pp. 55-76, 2015.
● Lantz, Brett: Machine Learning with R. Packt Publishing, 2013.
● James, Gareth, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning. Springer, 2013.
Požadavky ke zkoušce -
Poslední úprava: RNDr. Martin Holub, Ph.D. (13.06.2019)
Řízené a neřízené učení, konstrukce příznaků, přetrénování. Příprava dat, mezianotátorská shoda. Vyhodnocení experimentů, křížová validace, odhad chyby, bootstrapping, statistická významnost, intervaly spolehlivosti. Výběr modelu. Rozhodovací stromy. Naivní Bayesův klasifikátor. Učení založené na příkladech, algoritmus k-NN. Prokletí dimenzionality. Metoda podpůrných vektorů, lineární a nelineární separace, kernelové funkce. Kombinace metod, hlasování, bagging, boosting, AdaBoost, náhodné lesy. Logistická regrese. Shluková analýza, algoritmus K-means.
Poslední úprava: RNDr. Martin Holub, Ph.D. (13.06.2019)
Supervised and unsupervised learning, feature engineering, overfitting. Data preparation, inter-annotator agreement. Design of the machine learning experiment and the development cycle. Experiment evaluation, cross-validation, error estimation, bootstrapping, statistical significance, confidence intervals. Model selection. Decision Tree learning. Naive Bayes classifier. Instance-based learning, the k-NN algorithm. The curse of dimensionality. Support vector machines, linear and non-linear separation, Kernel tricks. Ensemble methods, combination of classifiers, voting, bagging, boosting, AdaBoost, Random Forests. Logistic Regression. Clustering, the K-means algorithm.
Sylabus -
Poslední úprava: G_I (26.05.2015)
Úvod do strojového učení a jeho aplikací v NLP. Řízené a neřízené učení, konstrukce příznaků, přetrénování. Příprava dat, mezianotátorská shoda. Vyhodnocení experimentů, křížová validace, odhad chyby, bootstrapping, statistická významnost, intervaly spolehlivosti. Výběr modelu. Rozhodovací stromy. Naivní Bayesův klasifikátor. Učení založené na příkladech, algoritmus k-NN. Prokletí dimenzionality. Metoda podpůrných vektorů, lineární a nelineární separace, kernelové funkce. Kombinace metod, hlasování, bagging, boosting, AdaBoost, náhodné lesy. Logistická regrese. Shluková analýza, algoritmus K-means.
Poslední úprava: T_UFAL (26.09.2016)
This course will be taught in English, exclusively for EM LCT students and other Erasmus students. Introduction to machine learning and its applications in NLP. Supervised and unsupervised learning, feature engineering, overfitting. Data preparation, inter-annotator agreement. Design of the machine learning experiment and the development cycle. Experiment evaluation, cross-validation, error estimation, bootstrapping, statistical significance, confidence intervals. Model selection. Decision Tree learning. Naive Bayes classifier. Instance-based learning, the k-NN algorithm. The curse of dimensionality. Support vector machines, linear and non-linear separation, Kernel tricks. Ensemble methods, combination of classifiers, voting, bagging, boosting, AdaBoost, Random Forests. Logistic Regression. Clustering, the K-means algorithm.