Identifikace složených gramatických tvarů
Thesis title in Czech: | Identifikace složených gramatických tvarů |
---|---|
Thesis title in English: | Identification of periphrastic grammatical forms |
Key words: | anotovaný korpus|značkování|morfologie|syntax|zpracování přirozeného jazyka|universal dependencies |
English key words: | annotated corpus|tagging|morphology|syntax|natural language processing|universal dependencies |
Academic year of topic announcement: | 2023/2024 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Daniel Zeman, Ph.D. |
Author: | hidden![]() |
Date of registration: | 07.04.2024 |
Date of assignment: | 08.04.2024 |
Confirmed by Study dept. on: | 08.04.2024 |
Date and time of defence: | 05.09.2024 09:00 |
Date of electronic submission: | 18.07.2024 |
Date of submission of printed version: | 18.07.2024 |
Date of proceeded defence: | 05.09.2024 |
Opponents: | doc. RNDr. Markéta Lopatková, Ph.D. |
Guidelines |
Data používaná při počítačovém zpracování jazyka (anotované korpusy a elektronické slovníky) obvykle obsahují značky, které popisují vlastnosti jednoho slova. V mnoha jazycích ale gramatika pracuje se složenými výrazy, které se skládají ze dvou a více slov. Například minulý podmiňovací způsob v češtině se skládá z příčestí plnovýznamového slovesa (např. „udělal“), z příčestí pomocného slovesa (např. „byl“) a z pomocného podmiňovacího tvaru, původně aoristu pomocného slovesa (např. „bych“). Všechna tato slova se používají i v jiných konstrukcích, přičemž rysy výsledného složeného tvaru nejsou anotované na jednom místě (minulost je u „byl“, podmiňovací způsob u „bych“ atd.), pokud se vůbec u některého slova vyskytnou. Chceme-li porozumět textu, musíme vědět, že teprve jejich spojením dotyčný tvar vznikne. Cílem práce je navrhnout a otestovat metodu, která v existujících anotovaných datech takové složené tvary odhalí a vhodným způsobem do dat doplní anotaci celého složeného tvaru. Metoda by měla být dostatečně obecná, aby šla aplikovat na různé jazyky (po dodefinování složených tvarů specifických pro daný jazyk).
Pracujte s daty z mnohojazyčného korpusu Universal Dependencies (http://universaldependencies.org/, UD). Navrhněte způsob, jak v rámci datového formátu CoNLL-U, který se v UD používá, zachytit morfologické a další rysy, které se týkají skupiny slov. Navrhněte obecný způsob, jak zadat pravidlo, které na základě anotací jednotlivých slov sestaví anotaci složeného gramatického tvaru. Vytvořte program, který taková pravidla načte a aplikuje je na konkrétní anotovaný korpus. Program otestujte na několika jazycích a v práci zhodnoťte jeho úspěšnost. Posuďte, jak obtížné je program nasadit na nový jazyk. Pokud je nový jazyk blízce příbuzný jazyku, pro který už pravidla máme, je možné existující sadu pravidel částečně využít i pro nový jazyk? Tam, kde je to vhodné, může být součástí řešení práce také sjednocení stávajících anotací napříč korpusy a jazyky — i když Universal Dependencies definují jednotný anotační rámec, stále umožňují určitou míru flexibility, kvůli které není vždy stejný jev v různých jazycích zachycen zcela identicky. |
References |
Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308
Magda Razímová, Zdeněk Žabokrtský: Annotation of Grammatemes in the Prague Dependency Treebank 2.0. In: Proceedings of the LREC Workshop on Annotation Science, Copyright © ELRA, Genova, Italy, ISBN 2-9517408-2-4, pp. 12-19, 2006 |