Předmět je určen POUZE pro studenty v Programu EM LCT, viz http://ufal.mff.cuni.cz/lct.html. Cílem semináře je představit základní pravděpodobnostní a statistické principy, postupy a metody, které se prakticky využívají při řešení úloh komputační lingvistiky (zpracování přirozeného jazyka). Podstatnou částí kurzu je aktivní práce s daty a seznámení s postupy pro vypracování úloh v R. Po dohodě může část semináře proběhnout čtením a studiem vybraných materiálů.
Poslední úprava: SLEZA (22.05.2007)
ONLY for students in EM Program in LCT, see http://ufal.mff.cuni.cz/lct.html. The aim of the course is to introduce elementary probabilistic and statistical principles, techniques and methods which are used in solving computational linguistics (natural language processing) tasks. An essential part of the course is active work with data and introduction to workflow in R while solving a given task. A part of the course will consist of individual study of mutually agreed selected materials.
Literatura
Poslední úprava: RNDr. Martin Holub, Ph.D. (15.10.2017)
Sheldon M. Ross: A First Course In Probability. (7th Ed.) Prentice Hall, 2005.
T. Hastie, R. Tibshirani, J. H. Friedman: The Elements of Statistical Learning. Springer Verlag, 2003.
Požadavky ke zkoušce -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (09.10.2017)
Zápočet bude udělen za úspěšné složení testu a/nebo za vypracování závěrečné úlohy v R.
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (09.10.2017)
Final test and/or an assignement of a given task in R.
Sylabus -
Poslední úprava: RNDr. Martin Holub, Ph.D. (15.10.2017)
náhodná veličina
rozdělení náhodné veličiny
náhodný vektor
náhodný výběr
parametry rozdělení, odhadování parametrů
statistické testování hypotéz
kontingenční tabulky a testy v kontingenčních tabulkách
definice úlohy klasifikace a shlukové analýzy (clustering)
základy vybraných klasifikačních metod
základy programování v R - výpočetní statistické prostředí (www.r-project.org)
Poslední úprava: RNDr. Martin Holub, Ph.D. (15.10.2017)
random variable
probability distribution of random variable
random vector
random sampling
parameter(s) of distribution, estimating of parameters
statistical hypothesis testing
contingency tables, hypothesis testing in contingency tables
definition of classification and clustering tasks
introduction to a chosen classsification methods
introduction to programming in R - software environment for statistical computing and graphics (www.r-project.org)