Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Závislostní korpus akkadštiny
Název práce v češtině: Závislostní korpus akkadštiny
Název v anglickém jazyce: Akkadian treebank
Klíčová slova: akkadština, treebank, syntakticky značkovaný korpus
Klíčová slova anglicky: Akkadian, treebank
Akademický rok vypsání: 2016/2017
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel: skrytý - zadáno vedoucím/školitelem
Datum přihlášení: 02.03.2017
Datum zadání: 03.03.2017
Zásady pro vypracování
Závislostní syntaktická analýza přirozených jazyků zaznamenala v posledních několika letech značný nárůst výzkumného úsilí, a to zejména díky vzniku a rychlému růstu kolekce závislostních korpusů nazvané Universal Dependencies (UD, [1]). UD v současnosti poskytuje data pro mnoho desítek jazyků, a to včetně několika mrtvých jazyků (mimo jiné jde o latinu, koptštinu a starořečtinu). Součástí této práce bude podrobný rozbor aplikovatelnosti a případně i adaptace anotačního schématu UD pro akkadštinu, a to z lingvistického i z technického hlediska. Hlavním výstupem práce bude pilotní verze závislostního korpusu pro akkadštinu, který bude poskytovat morfologickou a syntaktickou analýzu vzorku vět převzatých z některého z existujících korpusů (např. [2]) a bude moci být zapojen do kolekce UD. Pro předzpracování korpusu před ruční anotací budou v maximální míře využity moderní nástroje pro automatickou analýzu textu (např. [3]).
Seznam odborné literatury
[1] Nivre, Joakim, et al. "Universal dependencies v1: A multilingual treebank collection." Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016). 2016.
[2] Tinney, S., E. Robson, and N. Veldhuis. "The Open Richly Annotated Cuneiform Corpus." http://oracc.museum.upenn.edu/dccmt/corpus/
[3]Straka, Milan, Jan Hajic, and Jana Straková. "UD-Pipe: Trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, POS tagging and parsing." Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). 2016.
 
Univerzita Karlova | Informační systém UK