Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Identification and analysis of Czech equivalents of German compounds

Název práce v češtině:	Identifikace a analýza českých ekvivalentů německých kompozit
Název v anglickém jazyce:	Identification and analysis of Czech equivalents of German compounds
Klíčová slova:	slovotvorba\|skládání slov\|odvozování\|morfologie\|syntax\|zpracování přirozeného jazyka\|paralelní korpus\|zarovnání
Klíčová slova anglicky:	word formation\|composition\|derivation\|morphology\|syntax\|natural language processing\|parallel corpus\|alignment
Akademický rok vypsání:	2020/2021
Typ práce:	bakalářská práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. Mgr. Magda Ševčíková, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	21.04.2021
Datum zadání:	21.04.2021
Datum potvrzení stud. oddělením:	04.05.2021
Datum a čas obhajoby:	02.07.2021 09:00
Datum odevzdání elektronické podoby:	27.05.2021
Datum odevzdání tištěné podoby:	27.05.2021
Datum proběhlé obhajoby:	02.07.2021
Oponenti:	doc. RNDr. Daniel Zeman, Ph.D.



Konzultanti:	prof. Ing. Zdeněk Žabokrtský, Ph.D.

Zásady pro vypracování

Kompozice je slovotvorný proces, při kterém se spojením dvou nebo více bází tvoří nové slovo (starý + věk > starověk, klein + Kind > Kleinkind). Kompozice je doložena napříč jazyky, v jednotlivých jazycích ovšem sehrává různě důležitou roli. V němčině je tento slovotvorný proces vysoce produktivní, naopak v češtině je využíván mnohem méně než tvoření slov odvozováním (srov. Wasserleitung : vodovod, Spielplatz : hřiště, Weihnachtsmarkt : vánoční trh).
Cílem bakalářské práce je navrhnout a implementovat automatickou metodu pro identifikaci slov nebo syntaktických frází, které odpovídají německým kompozitům v češtině, a provést jejich lingvistickou analýzu. Identifikace českých protějšků německých kompozit bude vycházet z dostupných zdrojů jazykových dat, zvl. lexikálních databází a textových korpusů (GermaNet, CELEX, DeriNet, OPUS, InterCorp) a bude realizována s využitím nástrojů pro zpracování přirozeného jazyka (FastAlign, UDPipe ad.). V navazující analýze budou české protějšky klasifikovány podle typu, pozornost bude věnována jejich slovnědruhovému zařazení a morfematické struktuře, případně syntaktické struktuře frází a také frekvenčním vlastnostem českých protějšků.

Seznam odborné literatury

Baayen, H. R. et al.: CELEX2. Linguistic Data Consortium, Catalogue No. LDC96L14. Philadelphia 1995.
Barz, I.: German. In P. O. Müller et al., Word-Formation. An International Handbook of the Languages of Europe, Vol. 4. Berlin: Mouton de Gruyter 2016, pp. 2387–2410.
Bozděchová, I.: Tvoření slov skládáním. Praha: ISV 1994.
Čermák, F. – Rosen, A.: The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13:3, 2012, pp. 411–427.
Dokulil, M.: Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakl. ČSAV 1962.
Dyer, C.: A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of NAACL-HLT 2013. Atlanta 2013, pp. 644–648.
Henrich, V. – Hinrichs, E.: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar 2011, pp. 420–426.
Straka, M. et al.: UDPipe at SIGMORPHON 2019: Contextualized Embeddings, Regularization with Morphological Categories, Corpora Merging. In Proceedings of the 16th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Stroudsburg 2019, pp. 95-103.
Ševčíková, M. – Žabokrtský, Z.: Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014). Reykjavík 2014, pp. 1087–1093.
Štekauer, P. et al.: Word-Formation in the World’s Languages. Cambridge: CUP 2012.
Tiedemann, J.: Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbul 2012, pp. 2214–2218.