Identification and analysis of Czech equivalents of German compounds
Název práce v češtině: | Identifikace a analýza českých ekvivalentů německých kompozit |
---|---|
Název v anglickém jazyce: | Identification and analysis of Czech equivalents of German compounds |
Klíčová slova: | slovotvorba|skládání slov|odvozování|morfologie|syntax|zpracování přirozeného jazyka|paralelní korpus|zarovnání |
Klíčová slova anglicky: | word formation|composition|derivation|morphology|syntax|natural language processing|parallel corpus|alignment |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Mgr. Magda Ševčíková, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 21.04.2021 |
Datum zadání: | 21.04.2021 |
Datum potvrzení stud. oddělením: | 04.05.2021 |
Datum a čas obhajoby: | 02.07.2021 09:00 |
Datum odevzdání elektronické podoby: | 27.05.2021 |
Datum odevzdání tištěné podoby: | 27.05.2021 |
Datum proběhlé obhajoby: | 02.07.2021 |
Oponenti: | doc. RNDr. Daniel Zeman, Ph.D. |
Konzultanti: | prof. Ing. Zdeněk Žabokrtský, Ph.D. |
Zásady pro vypracování |
Kompozice je slovotvorný proces, při kterém se spojením dvou nebo více bází tvoří nové slovo (starý + věk > starověk, klein + Kind > Kleinkind). Kompozice je doložena napříč jazyky, v jednotlivých jazycích ovšem sehrává různě důležitou roli. V němčině je tento slovotvorný proces vysoce produktivní, naopak v češtině je využíván mnohem méně než tvoření slov odvozováním (srov. Wasserleitung : vodovod, Spielplatz : hřiště, Weihnachtsmarkt : vánoční trh).
Cílem bakalářské práce je navrhnout a implementovat automatickou metodu pro identifikaci slov nebo syntaktických frází, které odpovídají německým kompozitům v češtině, a provést jejich lingvistickou analýzu. Identifikace českých protějšků německých kompozit bude vycházet z dostupných zdrojů jazykových dat, zvl. lexikálních databází a textových korpusů (GermaNet, CELEX, DeriNet, OPUS, InterCorp) a bude realizována s využitím nástrojů pro zpracování přirozeného jazyka (FastAlign, UDPipe ad.). V navazující analýze budou české protějšky klasifikovány podle typu, pozornost bude věnována jejich slovnědruhovému zařazení a morfematické struktuře, případně syntaktické struktuře frází a také frekvenčním vlastnostem českých protějšků. |
Seznam odborné literatury |
Baayen, H. R. et al.: CELEX2. Linguistic Data Consortium, Catalogue No. LDC96L14. Philadelphia 1995.
Barz, I.: German. In P. O. Müller et al., Word-Formation. An International Handbook of the Languages of Europe, Vol. 4. Berlin: Mouton de Gruyter 2016, pp. 2387–2410. Bozděchová, I.: Tvoření slov skládáním. Praha: ISV 1994. Čermák, F. – Rosen, A.: The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13:3, 2012, pp. 411–427. Dokulil, M.: Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakl. ČSAV 1962. Dyer, C.: A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of NAACL-HLT 2013. Atlanta 2013, pp. 644–648. Henrich, V. – Hinrichs, E.: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar 2011, pp. 420–426. Straka, M. et al.: UDPipe at SIGMORPHON 2019: Contextualized Embeddings, Regularization with Morphological Categories, Corpora Merging. In Proceedings of the 16th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Stroudsburg 2019, pp. 95-103. Ševčíková, M. – Žabokrtský, Z.: Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík 2014, pp. 1087–1093. Štekauer, P. et al.: Word-Formation in the World’s Languages. Cambridge: CUP 2012. Tiedemann, J.: Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbul 2012, pp. 2214–2218. |