Harmonisation of Language Resources for Word-Formation of Multiple Languages
Název práce v češtině: | Harmonizace jazykových zdrojů zachycujících slovotvorbu různých jazyků |
---|---|
Název v anglickém jazyce: | Harmonisation of Language Resources for Word-Formation of Multiple Languages |
Klíčová slova: | jazykový zdroj, lexikální zdroj, slovotvorba, derivace, harmonizace, přirozené jazyky, počítačové zpracování jazyka |
Klíčová slova anglicky: | language resource, lexical resource, word-formation, derivation, harmonisation, natural languages, natural language processing |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Magda Ševčíková, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 29.01.2019 |
Datum zadání: | 29.01.2019 |
Datum potvrzení stud. oddělením: | 30.01.2019 |
Datum a čas obhajoby: | 23.06.2020 09:00 |
Datum odevzdání elektronické podoby: | 27.05.2020 |
Datum odevzdání tištěné podoby: | 28.05.2020 |
Datum proběhlé obhajoby: | 23.06.2020 |
Oponenti: | RNDr. Daniel Zeman, Ph.D. |
Zásady pro vypracování |
Problematice tvoření slov je v počítačovém zpracování přirozeného jazyka věnována zásadnější pozornost teprve v posledních letech. Vznikající jazykové zdroje specializované na slovotvorbu jednotlivých jazyků se ovšem vzájemně podstatně liší datovou strukturou, souborovým formátem, anotací, velikostí a dalšími rysy. K dispozici dosud není ani přehled těchto zdrojů.
Cílem diplomové práce je existující jazykové zdroje zpracovávající slovotvorbu zmapovat a vybrané zdroje harmonizovat do jednotného formátu. V rešeršní části práce tedy diplomant shromáždí informace o dostupných slovotvorných zdrojích, zahrne i zdroje, které se primárně na slovotvorbu nezaměřují, ale slovotvorné rysy z nich lze extrahovat (např. zdroje typu WordNet pro některé jazyky). Nalezené zdroje porovná z hledisek kvantitativních i kvalitativních. Z existujících zdrojů diplomant podle zvolených kritérií vybere několik kandidátů a v práci provede jejich harmonizaci. Harmonizace bude realizována jako co nejuniverzálnější převod datových struktur, formátů a schémat atributů a hodnot, a to s ohledem na specifika původních zdrojů i slovotvorného systému daných jazyků. Harmonizační schéma, které diplomant navrhne, bude vycházet z formátu používaného v slovotvorné síti pro češtinu (DeriNet). Harmonizace jazykových zdrojů je důležitým předpokladem pro využití těchto zdrojů v dalších, multilingválně zaměřených úkolech počítačového zpracování přirozeného jazyka i v komparativním lingvistickém výzkumu, jak se potvrzuje např. v existujících syntaktických projektech (HamleDT, Universal Dependencies). |
Seznam odborné literatury |
Dokulil, M. (1962). Tvoření slov v čestině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV.
Müller, P. et al. (eds., 2015). Volume 1 Word-Formation. An International Handbook of the Languages of Europe. Berlin, Boston: De Gruyter Mouton. Nivre, J. et al. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of the 10th Language Resources and Evaluation Conference, 1659–1666. Padó, S., Šnajder, J., Zeller, B. (2013). Derivational Smoothing for Syntactic Distributional Semantics. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 731-735. Ševčíková, M. et al. (2016). Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině. Časopis pro moderní filologii, 98(1), 62–76. Štekauer, P., Valera, S., Kőrtvélyessy, L. (2012). Word-Formation in the World's Languages: A Typological Survey. Cambridge: Cambridge University Press. Vidra, J., Žabokrtský, Z. (2017). Online Software Components for Accessing Derivational Networks. In Proceedings of the Workshop on Resources and Tools for Derivational Morphology (DeriMo), 129-139. Zeman, D., et al. (2014): HamleDT: Harmonized Multi-Language Dependency Treebank. Language Resources and Evaluation, 48(4), 601-637. Zdroje: CatVar, Démonette, DeriNet, DerIvaTario, DerivBase, DerivBase.hr, DerivCELEX, EstWordNet, FinnWordNet, Nomlex-PT, Polish Word-Formation Network, Spanish Word-Formation Network, Sloleks, Word-Formation Latin ad. |