Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Identification and analysis of Czech equivalents of German compounds
Název práce v češtině: Identifikace a analýza českých ekvivalentů německých kompozit
Název v anglickém jazyce: Identification and analysis of Czech equivalents of German compounds
Klíčová slova: slovotvorba|skládání slov|odvozování|morfologie|syntax|zpracování přirozeného jazyka|paralelní korpus|zarovnání
Klíčová slova anglicky: word formation|composition|derivation|morphology|syntax|natural language processing|parallel corpus|alignment
Akademický rok vypsání: 2020/2021
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. Mgr. Magda Ševčíková, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 21.04.2021
Datum zadání: 21.04.2021
Datum potvrzení stud. oddělením: 04.05.2021
Datum a čas obhajoby: 02.07.2021 09:00
Datum odevzdání elektronické podoby:27.05.2021
Datum odevzdání tištěné podoby:27.05.2021
Datum proběhlé obhajoby: 02.07.2021
Oponenti: doc. RNDr. Daniel Zeman, Ph.D.
 
 
 
Konzultanti: prof. Ing. Zdeněk Žabokrtský, Ph.D.
Zásady pro vypracování
Kompozice je slovotvorný proces, při kterém se spojením dvou nebo více bází tvoří nové slovo (starý + věk > starověk, klein + Kind > Kleinkind). Kompozice je doložena napříč jazyky, v jednotlivých jazycích ovšem sehrává různě důležitou roli. V němčině je tento slovotvorný proces vysoce produktivní, naopak v češtině je využíván mnohem méně než tvoření slov odvozováním (srov. Wasserleitung : vodovod, Spielplatz : hřiště, Weihnachtsmarkt : vánoční trh).
Cílem bakalářské práce je navrhnout a implementovat automatickou metodu pro identifikaci slov nebo syntaktických frází, které odpovídají německým kompozitům v češtině, a provést jejich lingvistickou analýzu. Identifikace českých protějšků německých kompozit bude vycházet z dostupných zdrojů jazykových dat, zvl. lexikálních databází a textových korpusů (GermaNet, CELEX, DeriNet, OPUS, InterCorp) a bude realizována s využitím nástrojů pro zpracování přirozeného jazyka (FastAlign, UDPipe ad.). V navazující analýze budou české protějšky klasifikovány podle typu, pozornost bude věnována jejich slovnědruhovému zařazení a morfematické struktuře, případně syntaktické struktuře frází a také frekvenčním vlastnostem českých protějšků.
Seznam odborné literatury
Baayen, H. R. et al.: CELEX2. Linguistic Data Consortium, Catalogue No. LDC96L14. Philadelphia 1995.
Barz, I.: German. In P. O. Müller et al., Word-Formation. An International Handbook of the Languages of Europe, Vol. 4. Berlin: Mouton de Gruyter 2016, pp. 2387–2410.
Bozděchová, I.: Tvoření slov skládáním. Praha: ISV 1994.
Čermák, F. – Rosen, A.: The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13:3, 2012, pp. 411–427.
Dokulil, M.: Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakl. ČSAV 1962.
Dyer, C.: A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of NAACL-HLT 2013. Atlanta 2013, pp. 644–648.
Henrich, V. – Hinrichs, E.: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar 2011, pp. 420–426.
Straka, M. et al.: UDPipe at SIGMORPHON 2019: Contextualized Embeddings, Regularization with Morphological Categories, Corpora Merging. In Proceedings of the 16th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Stroudsburg 2019, pp. 95-103.
Ševčíková, M. – Žabokrtský, Z.: Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík 2014, pp. 1087–1093.
Štekauer, P. et al.: Word-Formation in the World’s Languages. Cambridge: CUP 2012.
Tiedemann, J.: Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbul 2012, pp. 2214–2218.
 
Univerzita Karlova | Informační systém UK