Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 348)
Detail práce
   Přihlásit přes CAS
Identifikace složených gramatických tvarů
Název práce v češtině: Identifikace složených gramatických tvarů
Název v anglickém jazyce: Identification of periphrastic grammatical forms
Klíčová slova: anotovaný korpus, značkování, morfologie, syntax, zpracování přirozeného jazyka, universal dependencies
Klíčová slova anglicky: annotated corpus, tagging, morphology, syntax, natural language processing, universal dependencies
Akademický rok vypsání: 2022/2023
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Daniel Zeman, Ph.D.
Řešitel:
Zásady pro vypracování
Pracujte s daty z mnohojazyčného korpusu Universal Dependencies (http://universaldependencies.org/, UD). Navrhněte způsob, jak v rámci datového formátu CoNLL-U, který se v UD používá, zachytit morfologické a další rysy, které se týkají skupiny slov. Navrhněte obecný způsob, jak zadat pravidlo, které na základě anotací jednotlivých slov sestaví anotaci složeného gramatického tvaru. Vytvořte program, který taková pravidla načte a aplikuje je na konkrétní anotovaný korpus. Program otestujte na několika jazycích a v práci zhodnoťte jeho úspěšnost. Posuďte, jak obtížné je program nasadit na nový jazyk. Pokud je nový jazyk blízce příbuzný jazyku, pro který už pravidla máme, je možné existující sadu pravidel částečně využít i pro nový jazyk?
Seznam odborné literatury
Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman (2016): Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), pp. 1659-1666, European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1

Magda Razímová, Zdeněk Žabokrtský: Annotation of Grammatemes in the Prague Dependency Treebank 2.0. In: Proceedings of the LREC Workshop on Annotation Science, Copyright © ELRA, Genova, Italy, ISBN 2-9517408-2-4, pp. 12-19, 2006
Předběžná náplň práce
Data používaná při počítačovém zpracování jazyka (anotované korpusy a elektronické slovníky) obvykle obsahují značky, které popisují vlastnosti jednoho slova. V mnoha jazycích ale gramatika pracuje se složenými výrazy, které se skládají ze dvou a více slov. Například předpřítomný čas v angličtině se skládá z příčestí (např. „done“) a z přítomného tvaru pomocného slovesa („have“). Obě tato slova se používají i v jiných konstrukcích a ani jedno z nich typicky není anotováno jako předpřítomný čas. Chceme-li porozumět anglickému textu, musíme vědět, že teprve jejich spojením předpřítomný čas vznikne. Cílem práce je navrhnout a otestovat metodu, která v existujících anotovaných datech takové složené tvary odhalí a vhodným způsobem do dat doplní anotaci celého složeného tvaru. Metoda by měla být dostatečně obecná, aby šla aplikovat na různé jazyky (po dodefinování složených tvarů specifických pro daný jazyk).
Předběžná náplň práce v anglickém jazyce
The data used in natural language processing (annotated corpora and electronic dictionaries) typically contain tags that describe individual words. However, grammars of many languages define periphrastic (compound) forms that consist of two or more words. For example, the present perfect tense in English consists of the participle (e.g. “done”) and the present indicative form of the auxiliary verb (“have”). Both these words are also used in other constructions and none of them is normally annotated as the present perfect tense. If we want to understand English text, we have to know that only the combination of the two words creates the meaning associated with present prefect. The goal of the thesis is to design and evaluate a method that detects periphrastic forms in existing annotated data and adds the annotation of the word group to the data. The method should be sufficiently general so that it can be applied to various languages (after periphrastic forms specific to that language are defined).
 
Univerzita Karlova | Informační systém UK