The core of the work will be design of annotation guidelines specific for Yoruba, within the Universal Dependencies framework, and creation of annotated data that enable training of at least a small model for automatic tokenization, tagging and dependency parsing of this language.
Jádrem práce bude návrh anotačních pravidel specifických pro jorubštinu v rámci formalismu Universal Dependencies, a tvorba anotovaných dat umožňujících natrénování alespoň malého modelu pro automatickou tokenizaci, značkování a závislostní syntaktickou analýzu tohoto jazyka.
References
Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher D. Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman. 2016. Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of LREC.