Basic methods and algorithms used for morphemic segmentation, morphological and syntactic (constituency-
based, dependency-based) analysis of natural languages. We will try out some of the approaches as student
mini-projects during the semester. Credits will be awarded for work on these mini-projects.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (12.05.2020)
Základní metody a algoritmy používané pro morfematickou segmentaci, morfologickou a syntaktickou (složkovou,
závislostní) analýzu přirozeného jazyka. Některé přístupy si v průběhu semestru formou miniprojektů vyzkoušíme
v praxi. Klasifikovaný zápočet bude udělován za samostatnou práci na těchto miniprojektech.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (12.05.2020)
Course completion requirements -
The credits are awarded for homeworks assigned during the semester. A typical homework consists of natural language processing whereas the solution comprises both the processed data and the tools created or configured by the student in order to process the data. Solutions are submitted by e-mail. Each homework task has its own number of points that can be awarded for the solution. Each task has a deadline. It is possible to submit the solution after the deadline but late submissions will not get the full points. In any case the solutions must be submitted before the end of the winter exam period, unless an exception has been negotiated with the lecturer.
If the full points were not awarded (also) for other reasons than late submission, the student can submit an improved solution where the lecturer's comments have been addressed. The new submission will be evaluated as if it was the first submission submitted after deadline.
The credit is graded and the final grade corresponds to the total number of points awarded for homeworks. There will be at least three homework assignments and the point system will enable getting the grade 1 (“outstanding”) for full points in two assignments.
The student can negotiate with the lecturer an alternative way of completion of the course, e.g. by doing a larger semestral project instead of several smaller assignments.
Last update: Zeman Daniel, RNDr., Ph.D. (07.10.2017)
Zápočet se uděluje za vypracování domácích úkolů zadaných v průběhu semestru. Typický úkol spočívá ve zpracování jazykových dat, součástí řešení jsou jednak zpracovaná data, jednak programové nástroje, které student k jejich zpracování vytvořil. Každý úkol má svou bodovou dotaci podle odhadované náročnosti. Každý úkol má také stanovený termín odevzdání mailem. Úkoly je možné odevzdat i po termínu, ale za pozdě odevzdané řešení nelze získat plný počet bodů. Všechna řešení je nicméně nutné odevzdat do konce zimního zkouškového období; tento termín lze překročit pouze po předchozí dohodě s vyučujícím.
Pokud řešení nezískalo plný počet bodů (i) z jiných důvodů než kvůli pozdnímu odevzdání, má student možnost odevzdat opravné řešení, kde zohlední výhrady vyučujícího. Opravné řešení bude hodnoceno, jako kdyby šlo o první řešení odevzdané po termínu.
Zápočet je klasifikovaný, výsledná známka se stanoví podle celkového počtu získaných bodů. Budou zadány nejméně tři domácí úkoly a bodový systém bude nastaven tak, aby k získání známky 1 („výborně“) stačil plný počet bodů ze dvou úkolů.
Individuálně je možné s vyučujícím dohodnout i jiný způsob splnění předmětu, např. vypracováním jednoho většího semestrálního projektu místo několika menších úkolů.
Last update: Zeman Daniel, RNDr., Ph.D. (07.10.2017)
Literature -
James Allen: Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc.; Redwood City, California,1994. ISBN 0-8053-0334-0.
Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990
Kimmo Koskenniemi: Two-level Morphology: A General Computational Model for Word-form Recognition and Production. University of Helsinki, Department of General Linguistics, Publications No. 11; Helsinki, 1983
Kenneth R. Beesley, Lauri Karttunen: Finite State Morphology. CSLI Publications, 2003
Jan Hajič: Unification Morfology Grammar (doktorandská práce). Univerzita Karlova, Praha, 1994
Richard Sproat: Morphology and Computation. Massachusetts Institute of Technology, Cambridge, Massachusetts, 1992
Stuart Shieber: An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes No. 4, Stanford, California, 1986
Kenneth R. Beesley, Lauri Karttunen: Finite State Morphology. CSLI Publications, 2003
Zeman, Daniel: The World of Tokens, Tags and Trees. Studies in Computational and Theoretical Linguistics, vol. 19. ÚFAL, Praha, 2018, ISBN 978-80-88132-09-7.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)
James Allen: Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc.; Redwood City, California,1994. ISBN 0-8053-0334-0.
Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990
Kimmo Koskenniemi: Two-level Morphology: A General Computational Model for Word-form Recognition and Production. University of Helsinki, Department of General Linguistics, Publications No. 11; Helsinki, 1983
Kenneth R. Beesley, Lauri Karttunen: Finite State Morphology. CSLI Publications, 2003
Jan Hajič: Unification Morfology Grammar (doktorandská práce). Univerzita Karlova, Praha, 1994
Richard Sproat: Morphology and Computation. Massachusetts Institute of Technology, Cambridge, Massachusetts, 1992
Stuart Shieber: An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes No. 4, Stanford, California, 1986
Kenneth R. Beesley, Lauri Karttunen: Finite State Morphology. CSLI Publications, 2003
Zeman, Daniel: The World of Tokens, Tags and Trees. Studies in Computational and Theoretical Linguistics, vol. 19. ÚFAL, Praha, 2018, ISBN 978-80-88132-09-7.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)
Syllabus -
1. Sets of morphosyntactic tags, definition of problems, parts of speech.
2. Supervised and unsupervised morphemic segmentation, Chinese word segmentation.
3. Finite-state (two-level) morphology.
4. Context-free grammars and chart parser, usage for morphological analysis.
5. Unification grammars for morphological analysis.