Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Identifikace složených gramatických tvarů

Thesis title in Czech:	Identifikace složených gramatických tvarů
Thesis title in English:	Identification of periphrastic grammatical forms
Key words:	anotovaný korpus\|značkování\|morfologie\|syntax\|zpracování přirozeného jazyka\|universal dependencies
English key words:	annotated corpus\|tagging\|morphology\|syntax\|natural language processing\|universal dependencies
Academic year of topic announcement:	2023/2024
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Daniel Zeman, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	07.04.2024
Date of assignment:	08.04.2024
Confirmed by Study dept. on:	08.04.2024
Date and time of defence:	05.09.2024 09:00
Date of electronic submission:	18.07.2024
Date of submission of printed version:	18.07.2024
Date of proceeded defence:	05.09.2024
Opponents:	doc. RNDr. Markéta Lopatková, Ph.D.

Guidelines

Data používaná při počítačovém zpracování jazyka (anotované korpusy a elektronické slovníky) obvykle obsahují značky, které popisují vlastnosti jednoho slova. V mnoha jazycích ale gramatika pracuje se složenými výrazy, které se skládají ze dvou a více slov. Například minulý podmiňovací způsob v češtině se skládá z příčestí plnovýznamového slovesa (např. „udělal“), z příčestí pomocného slovesa (např. „byl“) a z pomocného podmiňovacího tvaru, původně aoristu pomocného slovesa (např. „bych“). Všechna tato slova se používají i v jiných konstrukcích, přičemž rysy výsledného složeného tvaru nejsou anotované na jednom místě (minulost je u „byl“, podmiňovací způsob u „bych“ atd.), pokud se vůbec u některého slova vyskytnou. Chceme-li porozumět textu, musíme vědět, že teprve jejich spojením dotyčný tvar vznikne. Cílem práce je navrhnout a otestovat metodu, která v existujících anotovaných datech takové složené tvary odhalí a vhodným způsobem do dat doplní anotaci celého složeného tvaru. Metoda by měla být dostatečně obecná, aby šla aplikovat na různé jazyky (po dodefinování složených tvarů specifických pro daný jazyk).

Pracujte s daty z mnohojazyčného korpusu Universal Dependencies (http://universaldependencies.org/, UD). Navrhněte způsob, jak v rámci datového formátu CoNLL-U, který se v UD používá, zachytit morfologické a další rysy, které se týkají skupiny slov. Navrhněte obecný způsob, jak zadat pravidlo, které na základě anotací jednotlivých slov sestaví anotaci složeného gramatického tvaru. Vytvořte program, který taková pravidla načte a aplikuje je na konkrétní anotovaný korpus. Program otestujte na několika jazycích a v práci zhodnoťte jeho úspěšnost. Posuďte, jak obtížné je program nasadit na nový jazyk. Pokud je nový jazyk blízce příbuzný jazyku, pro který už pravidla máme, je možné existující sadu pravidel částečně využít i pro nový jazyk?

Tam, kde je to vhodné, může být součástí řešení práce také sjednocení stávajících anotací napříč korpusy a jazyky — i když Universal Dependencies definují jednotný anotační rámec, stále umožňují určitou míru flexibility, kvůli které není vždy stejný jev v různých jazycích zachycen zcela identicky.

References

Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308

Magda Razímová, Zdeněk Žabokrtský: Annotation of Grammatemes in the Prague Dependency Treebank 2.0. In: Proceedings of the LREC Workshop on Annotation Science, Copyright © ELRA, Genova, Italy, ISBN 2-9517408-2-4, pp. 12-19, 2006