Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Závislostní korpus akkadštiny

Název práce v češtině:	Závislostní korpus akkadštiny
Název v anglickém jazyce:	Akkadian treebank
Klíčová slova:	akkadština, treebank, syntakticky značkovaný korpus
Klíčová slova anglicky:	Akkadian, treebank
Akademický rok vypsání:	2016/2017
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel:	skrytý - zadáno vedoucím/školitelem
Datum přihlášení:	02.03.2017
Datum zadání:	03.03.2017

Zásady pro vypracování

Závislostní syntaktická analýza přirozených jazyků zaznamenala v posledních několika letech značný nárůst výzkumného úsilí, a to zejména díky vzniku a rychlému růstu kolekce závislostních korpusů nazvané Universal Dependencies (UD, [1]). UD v současnosti poskytuje data pro mnoho desítek jazyků, a to včetně několika mrtvých jazyků (mimo jiné jde o latinu, koptštinu a starořečtinu). Součástí této práce bude podrobný rozbor aplikovatelnosti a případně i adaptace anotačního schématu UD pro akkadštinu, a to z lingvistického i z technického hlediska. Hlavním výstupem práce bude pilotní verze závislostního korpusu pro akkadštinu, který bude poskytovat morfologickou a syntaktickou analýzu vzorku vět převzatých z některého z existujících korpusů (např. [2]) a bude moci být zapojen do kolekce UD. Pro předzpracování korpusu před ruční anotací budou v maximální míře využity moderní nástroje pro automatickou analýzu textu (např. [3]).

Seznam odborné literatury

[1] Nivre, Joakim, et al. "Universal dependencies v1: A multilingual treebank collection." Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016). 2016.
[2] Tinney, S., E. Robson, and N. Veldhuis. "The Open Richly Annotated Cuneiform Corpus." http://oracc.museum.upenn.edu/dccmt/corpus/
[3]Straka, Milan, Jan Hajic, and Jana Straková. "UD-Pipe: Trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, POS tagging and parsing." Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). 2016.