Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Harmonisation of Language Resources for Word-Formation of Multiple Languages
Název práce v češtině: Harmonizace jazykových zdrojů zachycujících slovotvorbu různých jazyků
Název v anglickém jazyce: Harmonisation of Language Resources for Word-Formation of Multiple Languages
Klíčová slova: jazykový zdroj, lexikální zdroj, slovotvorba, derivace, harmonizace, přirozené jazyky, počítačové zpracování jazyka
Klíčová slova anglicky: language resource, lexical resource, word-formation, derivation, harmonisation, natural languages, natural language processing
Akademický rok vypsání: 2018/2019
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Magda Ševčíková, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 29.01.2019
Datum zadání: 29.01.2019
Datum potvrzení stud. oddělením: 30.01.2019
Datum a čas obhajoby: 23.06.2020 09:00
Datum odevzdání elektronické podoby:27.05.2020
Datum odevzdání tištěné podoby:28.05.2020
Datum proběhlé obhajoby: 23.06.2020
Oponenti: RNDr. Daniel Zeman, Ph.D.
 
 
 
Zásady pro vypracování
Problematice tvoření slov je v počítačovém zpracování přirozeného jazyka věnována zásadnější pozornost teprve v posledních letech. Vznikající jazykové zdroje specializované na slovotvorbu jednotlivých jazyků se ovšem vzájemně podstatně liší datovou strukturou, souborovým formátem, anotací, velikostí a dalšími rysy. K dispozici dosud není ani přehled těchto zdrojů.
Cílem diplomové práce je existující jazykové zdroje zpracovávající slovotvorbu zmapovat a vybrané zdroje harmonizovat do jednotného formátu. V rešeršní části práce tedy diplomant shromáždí informace o dostupných slovotvorných zdrojích, zahrne i zdroje, které se primárně na slovotvorbu nezaměřují, ale slovotvorné rysy z nich lze extrahovat (např. zdroje typu WordNet pro některé jazyky). Nalezené zdroje porovná z hledisek kvantitativních i kvalitativních.
Z existujících zdrojů diplomant podle zvolených kritérií vybere několik kandidátů a v práci provede jejich harmonizaci. Harmonizace bude realizována jako co nejuniverzálnější převod datových struktur, formátů a schémat atributů a hodnot, a to s ohledem na specifika původních zdrojů i slovotvorného systému daných jazyků. Harmonizační schéma, které diplomant navrhne, bude vycházet z formátu používaného v slovotvorné síti pro češtinu (DeriNet).
Harmonizace jazykových zdrojů je důležitým předpokladem pro využití těchto zdrojů v dalších, multilingválně zaměřených úkolech počítačového zpracování přirozeného jazyka i v komparativním lingvistickém výzkumu, jak se potvrzuje např. v existujících syntaktických projektech (HamleDT, Universal Dependencies).
Seznam odborné literatury
Dokulil, M. (1962). Tvoření slov v čestině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV.
Müller, P. et al. (eds., 2015). Volume 1 Word-Formation. An International Handbook of the Languages of Europe. Berlin, Boston: De Gruyter Mouton.
Nivre, J. et al. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of the 10th Language Resources and Evaluation Conference, 1659–1666.
Padó, S., Šnajder, J., Zeller, B. (2013). Derivational Smoothing for Syntactic Distributional Semantics. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 731-735.
Ševčíková, M. et al. (2016). Lexikální síť DeriNet: elektronický zdroj pro výzkum derivace v češtině. Časopis pro moderní filologii, 98(1), 62–76.
Štekauer, P., Valera, S., Kőrtvélyessy, L. (2012). Word-Formation in the World's Languages: A Typological Survey. Cambridge: Cambridge University Press.
Vidra, J., Žabokrtský, Z. (2017). Online Software Components for Accessing Derivational Networks. In Proceedings of the Workshop on Resources and Tools for Derivational Morphology (DeriMo), 129-139.
Zeman, D., et al. (2014): HamleDT: Harmonized Multi-Language Dependency Treebank. Language Resources and Evaluation, 48(4), 601-637.

Zdroje: CatVar, Démonette, DeriNet, DerIvaTario, DerivBase, DerivBase.hr, DerivCELEX, EstWordNet, FinnWordNet, Nomlex-PT, Polish Word-Formation Network, Spanish Word-Formation Network, Sloleks, Word-Formation Latin ad.
 
Univerzita Karlova | Informační systém UK