Závislostní korpus akkadštiny
Thesis title in Czech: | Závislostní korpus akkadštiny |
---|---|
Thesis title in English: | Akkadian treebank |
Key words: | akkadština, treebank, syntakticky značkovaný korpus |
English key words: | Akkadian, treebank |
Academic year of topic announcement: | 2016/2017 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Author: | hidden - assigned by the advisor |
Date of registration: | 02.03.2017 |
Date of assignment: | 03.03.2017 |
Guidelines |
Závislostní syntaktická analýza přirozených jazyků zaznamenala v posledních několika letech značný nárůst výzkumného úsilí, a to zejména díky vzniku a rychlému růstu kolekce závislostních korpusů nazvané Universal Dependencies (UD, [1]). UD v současnosti poskytuje data pro mnoho desítek jazyků, a to včetně několika mrtvých jazyků (mimo jiné jde o latinu, koptštinu a starořečtinu). Součástí této práce bude podrobný rozbor aplikovatelnosti a případně i adaptace anotačního schématu UD pro akkadštinu, a to z lingvistického i z technického hlediska. Hlavním výstupem práce bude pilotní verze závislostního korpusu pro akkadštinu, který bude poskytovat morfologickou a syntaktickou analýzu vzorku vět převzatých z některého z existujících korpusů (např. [2]) a bude moci být zapojen do kolekce UD. Pro předzpracování korpusu před ruční anotací budou v maximální míře využity moderní nástroje pro automatickou analýzu textu (např. [3]). |
References |
[1] Nivre, Joakim, et al. "Universal dependencies v1: A multilingual treebank collection." Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016). 2016.
[2] Tinney, S., E. Robson, and N. Veldhuis. "The Open Richly Annotated Cuneiform Corpus." http://oracc.museum.upenn.edu/dccmt/corpus/ [3]Straka, Milan, Jan Hajic, and Jana Straková. "UD-Pipe: Trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, POS tagging and parsing." Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). 2016. |