Automatická detekce přejatých slov
Thesis title in Czech: | Automatická detekce přejatých slov |
---|---|
Thesis title in English: | Automatic detection of lexical borrowings |
Key words: | přejatá slova|automatická detekce|jazykové zdroje |
English key words: | lexical borrowings|automatic detection|language data resources |
Academic year of topic announcement: | 2023/2024 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. Mgr. Magda Ševčíková, Ph.D. |
Author: | hidden![]() |
Date of registration: | 20.02.2024 |
Date of assignment: | 20.02.2024 |
Confirmed by Study dept. on: | 21.02.2024 |
Advisors: | prof. Ing. Zdeněk Žabokrtský, Ph.D. |
Guidelines |
Přejímání slov je v přirozených jazycích jedním ze způsobů rozšiřování slovní zásoby. Přejatá slova se různým tempem a různou měrou přizpůsobují hláskovému a morfologickému systému přijímajícího jazyka, uchovávají si ovšem specifické rysy, ty jsou využívány pro jejich automatickou detekci (Miller & List 2023, Miller et al. 2020, List 2019, Tadmor 2009 ad.).
Cílem diplomové práce je navrhnout a implementovat automatické metody pro identifikaci slov s cizími kořeny v češtině a dalších jazycích. Experimenty budou vycházet z dostupných zdrojů jazykových dat, zvl. lexikálních databází a textových korpusů (World Loanword Database, Slovník cizích slov, DeriNet a další zdroje v kolekcích Universal Derivations, OPUS nebo InterCorp) a budou realizovány s využitím nástrojů pro zpracování přirozeného jazyka (FastAlign, UDPipe ad.). Úspěšnost experimentů bude vyhodnocena na základě existujících jazykových zdrojů. |
References |
List, J.-M. (2019). Automated methods for the investigation of language contact, with a focus on lexical borrowing. Language and Linguistics Compass 13, e12355. https://doi.org/10.1111/lnc3.12355
Miller, J. & J.-M. List (2023). Detecting lexical borrowings from dominant languages in multilingual wordlists. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pp. 2591–2597. Miller, J. et al. (2020). Using lexical language models to detect borrowings in monolingual wordlists. PLOS One, e0242709. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0242709 Tadmor, U. (2009). Loanwords in the world's languages: Findings and results. In M. Haspelmath & U. Tadmor (eds.), Loanwords in the world's languages: A comparative handbook. De Gruyter, pp. 55–75. |