Harmonisation of Language Resources for Word-Formation of Multiple Languages
Thesis title in Czech: | Harmonizace jazykových zdrojů zachycujících slovotvorbu různých jazyků |
---|---|
Thesis title in English: | Harmonisation of Language Resources for Word-Formation of Multiple Languages |
Key words: | jazykový zdroj, lexikální zdroj, slovotvorba, derivace, harmonizace, přirozené jazyky, počítačové zpracování jazyka |
English key words: | language resource, lexical resource, word-formation, derivation, harmonisation, natural languages, natural language processing |
Academic year of topic announcement: | 2018/2019 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. Mgr. Magda Ševčíková, Ph.D. |
Author: | hidden![]() |
Date of registration: | 29.01.2019 |
Date of assignment: | 29.01.2019 |
Confirmed by Study dept. on: | 30.01.2019 |
Date and time of defence: | 23.06.2020 09:00 |
Date of electronic submission: | 27.05.2020 |
Date of submission of printed version: | 28.05.2020 |
Date of proceeded defence: | 23.06.2020 |
Opponents: | doc. RNDr. Daniel Zeman, Ph.D. |
Guidelines |
Problematice tvoření slov je v počítačovém zpracování přirozeného jazyka věnována zásadnější pozornost teprve v posledních letech. Vznikající jazykové zdroje specializované na slovotvorbu jednotlivých jazyků se ovšem vzájemně podstatně liší datovou strukturou, souborovým formátem, anotací, velikostí a dalšími rysy. K dispozici dosud není ani přehled těchto zdrojů.
Cílem diplomové práce je existující jazykové zdroje zpracovávající slovotvorbu zmapovat a vybrané zdroje harmonizovat do jednotného formátu. V rešeršní části práce tedy diplomant shromáždí informace o dostupných slovotvorných zdrojích, zahrne i zdroje, které se primárně na slovotvorbu nezaměřují, ale slovotvorné rysy z nich lze extrahovat (např. zdroje typu WordNet pro některé jazyky). Nalezené zdroje porovná z hledisek kvantitativních i kvalitativních. Z existujících zdrojů diplomant podle zvolených kritérií vybere několik kandidátů a v práci provede jejich harmonizaci. Harmonizace bude realizována jako co nejuniverzálnější převod datových struktur, formátů a schémat atributů a hodnot, a to s ohledem na specifika původních zdrojů i slovotvorného systému daných jazyků. Harmonizační schéma, které diplomant navrhne, bude vycházet z formátu používaného v slovotvorné síti pro češtinu (DeriNet). Harmonizace jazykových zdrojů je důležitým předpokladem pro využití těchto zdrojů v dalších, multilingválně zaměřených úkolech počítačového zpracování přirozeného jazyka i v komparativním lingvistickém výzkumu, jak se potvrzuje např. v existujících syntaktických projektech (HamleDT, Universal Dependencies). |
References |
Dokulil, M. (1962). Tvoření slov v čestině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV.
Müller, P. et al. (eds., 2015). Volume 1 Word-Formation. An International Handbook of the Languages of Europe. Berlin, Boston: De Gruyter Mouton. Nivre, J. et al. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of the 10th Language Resources and Evaluation Conference, 1659–1666. Padó, S., Šnajder, J., Zeller, B. (2013). Derivational Smoothing for Syntactic Distributional Semantics. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 731-735. Ševčíková, M. et al. (2016). Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině. Časopis pro moderní filologii, 98(1), 62–76. Štekauer, P., Valera, S., Kőrtvélyessy, L. (2012). Word-Formation in the World's Languages: A Typological Survey. Cambridge: Cambridge University Press. Vidra, J., Žabokrtský, Z. (2017). Online Software Components for Accessing Derivational Networks. In Proceedings of the Workshop on Resources and Tools for Derivational Morphology (DeriMo), 129-139. Zeman, D., et al. (2014): HamleDT: Harmonized Multi-Language Dependency Treebank. Language Resources and Evaluation, 48(4), 601-637. Zdroje: CatVar, Démonette, DeriNet, DerIvaTario, DerivBase, DerivBase.hr, DerivCELEX, EstWordNet, FinnWordNet, Nomlex-PT, Polish Word-Formation Network, Spanish Word-Formation Network, Sloleks, Word-Formation Latin ad. |