Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Identifikace složených gramatických tvarů

Název práce v češtině:	Identifikace složených gramatických tvarů
Název v anglickém jazyce:	Identification of periphrastic grammatical forms
Klíčová slova:	anotovaný korpus\|značkování\|morfologie\|syntax\|zpracování přirozeného jazyka\|universal dependencies
Klíčová slova anglicky:	annotated corpus\|tagging\|morphology\|syntax\|natural language processing\|universal dependencies
Akademický rok vypsání:	2023/2024
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Daniel Zeman, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	07.04.2024
Datum zadání:	08.04.2024
Datum potvrzení stud. oddělením:	08.04.2024
Datum a čas obhajoby:	05.09.2024 09:00
Datum odevzdání elektronické podoby:	18.07.2024
Datum odevzdání tištěné podoby:	18.07.2024
Datum proběhlé obhajoby:	05.09.2024
Oponenti:	doc. RNDr. Markéta Lopatková, Ph.D.

Zásady pro vypracování

Data používaná při počítačovém zpracování jazyka (anotované korpusy a elektronické slovníky) obvykle obsahují značky, které popisují vlastnosti jednoho slova. V mnoha jazycích ale gramatika pracuje se složenými výrazy, které se skládají ze dvou a více slov. Například minulý podmiňovací způsob v češtině se skládá z příčestí plnovýznamového slovesa (např. „udělal“), z příčestí pomocného slovesa (např. „byl“) a z pomocného podmiňovacího tvaru, původně aoristu pomocného slovesa (např. „bych“). Všechna tato slova se používají i v jiných konstrukcích, přičemž rysy výsledného složeného tvaru nejsou anotované na jednom místě (minulost je u „byl“, podmiňovací způsob u „bych“ atd.), pokud se vůbec u některého slova vyskytnou. Chceme-li porozumět textu, musíme vědět, že teprve jejich spojením dotyčný tvar vznikne. Cílem práce je navrhnout a otestovat metodu, která v existujících anotovaných datech takové složené tvary odhalí a vhodným způsobem do dat doplní anotaci celého složeného tvaru. Metoda by měla být dostatečně obecná, aby šla aplikovat na různé jazyky (po dodefinování složených tvarů specifických pro daný jazyk).

Pracujte s daty z mnohojazyčného korpusu Universal Dependencies (http://universaldependencies.org/, UD). Navrhněte způsob, jak v rámci datového formátu CoNLL-U, který se v UD používá, zachytit morfologické a další rysy, které se týkají skupiny slov. Navrhněte obecný způsob, jak zadat pravidlo, které na základě anotací jednotlivých slov sestaví anotaci složeného gramatického tvaru. Vytvořte program, který taková pravidla načte a aplikuje je na konkrétní anotovaný korpus. Program otestujte na několika jazycích a v práci zhodnoťte jeho úspěšnost. Posuďte, jak obtížné je program nasadit na nový jazyk. Pokud je nový jazyk blízce příbuzný jazyku, pro který už pravidla máme, je možné existující sadu pravidel částečně využít i pro nový jazyk?

Tam, kde je to vhodné, může být součástí řešení práce také sjednocení stávajících anotací napříč korpusy a jazyky — i když Universal Dependencies definují jednotný anotační rámec, stále umožňují určitou míru flexibility, kvůli které není vždy stejný jev v různých jazycích zachycen zcela identicky.

Seznam odborné literatury

Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): Universal Dependencies. In: Computational Linguistics, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308

Magda Razímová, Zdeněk Žabokrtský: Annotation of Grammatemes in the Prague Dependency Treebank 2.0. In: Proceedings of the LREC Workshop on Annotation Science, Copyright © ELRA, Genova, Italy, ISBN 2-9517408-2-4, pp. 12-19, 2006