Thesis (Selection of subject)Thesis (Selection of subject)(version: 354)
Assignment details
   Login via CAS
Identifikace složených gramatických tvarů
Thesis title in Czech: Identifikace složených gramatických tvarů
Thesis title in English: Identification of periphrastic grammatical forms
Key words: anotovaný korpus, značkování, morfologie, syntax, zpracování přirozeného jazyka, universal dependencies
English key words: annotated corpus, tagging, morphology, syntax, natural language processing, universal dependencies
Academic year of topic announcement: 2022/2023
Type of assignment: Bachelor's thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Daniel Zeman, Ph.D.
Author:
Guidelines
Pracujte s daty z mnohojazyčného korpusu Universal Dependencies (http://universaldependencies.org/, UD). Navrhněte způsob, jak v rámci datového formátu CoNLL-U, který se v UD používá, zachytit morfologické a další rysy, které se týkají skupiny slov. Navrhněte obecný způsob, jak zadat pravidlo, které na základě anotací jednotlivých slov sestaví anotaci složeného gramatického tvaru. Vytvořte program, který taková pravidla načte a aplikuje je na konkrétní anotovaný korpus. Program otestujte na několika jazycích a v práci zhodnoťte jeho úspěšnost. Posuďte, jak obtížné je program nasadit na nový jazyk. Pokud je nový jazyk blízce příbuzný jazyku, pro který už pravidla máme, je možné existující sadu pravidel částečně využít i pro nový jazyk?
References
Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman (2016): Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), pp. 1659-1666, European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1

Magda Razímová, Zdeněk Žabokrtský: Annotation of Grammatemes in the Prague Dependency Treebank 2.0. In: Proceedings of the LREC Workshop on Annotation Science, Copyright © ELRA, Genova, Italy, ISBN 2-9517408-2-4, pp. 12-19, 2006
Preliminary scope of work
Data používaná při počítačovém zpracování jazyka (anotované korpusy a elektronické slovníky) obvykle obsahují značky, které popisují vlastnosti jednoho slova. V mnoha jazycích ale gramatika pracuje se složenými výrazy, které se skládají ze dvou a více slov. Například předpřítomný čas v angličtině se skládá z příčestí (např. „done“) a z přítomného tvaru pomocného slovesa („have“). Obě tato slova se používají i v jiných konstrukcích a ani jedno z nich typicky není anotováno jako předpřítomný čas. Chceme-li porozumět anglickému textu, musíme vědět, že teprve jejich spojením předpřítomný čas vznikne. Cílem práce je navrhnout a otestovat metodu, která v existujících anotovaných datech takové složené tvary odhalí a vhodným způsobem do dat doplní anotaci celého složeného tvaru. Metoda by měla být dostatečně obecná, aby šla aplikovat na různé jazyky (po dodefinování složených tvarů specifických pro daný jazyk).
Preliminary scope of work in English
The data used in natural language processing (annotated corpora and electronic dictionaries) typically contain tags that describe individual words. However, grammars of many languages define periphrastic (compound) forms that consist of two or more words. For example, the present perfect tense in English consists of the participle (e.g. “done”) and the present indicative form of the auxiliary verb (“have”). Both these words are also used in other constructions and none of them is normally annotated as the present perfect tense. If we want to understand English text, we have to know that only the combination of the two words creates the meaning associated with present prefect. The goal of the thesis is to design and evaluate a method that detects periphrastic forms in existing annotated data and adds the annotation of the word group to the data. The method should be sufficiently general so that it can be applied to various languages (after periphrastic forms specific to that language are defined).
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html