The goal of the course is to provide students with knowledge and hands-on experience related to basic (mostly
statistical) methods in the field of Natural Language Processing. The students will be acquainted with fundamental
components such as corpora and language modes, as well as with complex end-user applications such as
Machine Translation.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (03.05.2019)
V předmětu se studenti seznámí se standardními, základními, převážně statistickými, metodami v oblasti
zpracování přirozeného jazyka (NLP). Studenti si po teoretické i implementační stránce osvojí potřebné techniky a
seznámí se jak se základními komponentami jako jsou korpusy a jazykové modely, tak s komplexními koncovými
aplikacemi NLP, například strojovým překladem.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (03.05.2019)
Course completion requirements -
To pass the course, you will need to submit homework assignments and do a written test.
Homework assignments
Assignments will be set in the class and specified on the website.
To get the credit, you need to get at least 50% of the total achievable points for the assignments.
If you miss the deadline, there is a second deadline in 2 weeks, but your points for the assignment will be multiplied by 0.5; after the second deadline, you get 0 points.
Test
There will be a written test at the end of the semester.
To pass the exam, you need to get at least 50% of the total points from the test.
Grading
Your grade is based on the average of your performance; the test and the homework assignments are weighted 1:1.
≥ 90%: grade 1 (excellent)
≥ 70%: grade 2 (very good)
≥ 50%: grade 3 (good)
< 50%: grade 4 (fail)
Last update: Žabokrtský Zdeněk, doc. Ing., Ph.D. (13.06.2019)
K absolvování předmětu je nutno průběžně odevzdávat domácí úkoly a absolvovat závěrečný zkouškový písemný test.
Domácí úkoly
Úkoly budou specifikovány na hodině, zadání budou k dispozici také na webové stránce předmětu.
K udělení zápočtu je nutno získat celkově alespoň 50% možných bodů z úkolů.
Každý úkol má určený termín, do kterého musí být odevzdán. Při odevzdání úkolu se zpožděním méně než dva týdny budou získané body vyděleny dvěma. Po ještě pozdějším odevzdání úkolu za něj nebudou přiděleny žádné body.
Závěrečný písemný test
K absolvování zkoušky je nutno získat alespoň 50% bodů ze závěrečného zkouškového písemného testu.
Známkování
Celková známka vyplyne z průměru bodů získaných z domácích úkolů a ze závěrečného testu.
≥ 90%: známka 1
≥ 70%: známka 2
≥ 50%: známka 3
< 50%: známka 4
Last update: Žabokrtský Zdeněk, doc. Ing., Ph.D. (13.06.2019)
Literature -
Electronic study materials are provided for each lecture.
Recommended literature beyond the basic requirements:
Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999 Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010. Manning, C., Raghavan, P., Schuetze, H.: Introduction to Information Retrieval. Cambridge University Press, 2008.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
Elektronické studijní materiály dodané k jednotlivým přednáškám.
Doporučená literatura nad rámec základních požadavků:
Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999 Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010.
Manning, C., Raghavan, P., Schuetze, H.: Introduction to Information Retrieval. Cambridge University Press, 2008.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
Syllabus -
Motivation for NLP. Probability models and information theory, basic notions.
Language models, smoothing.
Hidden markov models.
Language data resources, experiments in NLP.
Morphological tagging.
Syntactic analysis.
Overview of machine translation approaches.
Statistical machine translation.
Linguistic features in machine translation.
Information retrieval.
Term weights.
Document classification and clustering.
Word embeddings.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
Motivace pro NLP. Základní pojmy pravděpodobnostního modelování a teorie informace.
Jazykové modely a jejich vyhlazování.
Skryté markovovské modely.
Zdroje lingvistických dat, experiment v NLP.
Morfologické značkování.
Syntaktická analýza.
Přehled přístupů ke strojovému překladu.
Statistický strojový překlad.
Lingvistické rysy ve strojovém překladu.
Vyhledávání informací.
Váhy termů.
Klasifikace a shluková analýza dokumentů.
Vektorové modely.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)