Výpočet gramatického statusu: kvantitativní analýza čínských textů
Název práce v češtině: | Výpočet gramatického statusu: kvantitativní analýza čínských textů |
---|---|
Název v anglickém jazyce: | Calculation of grammatical status: quantitative analysis of Chinese texts |
Klíčová slova: | gramatický status|korpus|čínština|kvantitativní lingvistika|replikační studie |
Klíčová slova anglicky: | grammatical status|corpora|Chinese|quantitative linguistics|replication study |
Akademický rok vypsání: | 2023/2024 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav obecné lingvistiky (21-ULING) |
Vedoucí / školitel: | doc. PhDr. Jiří Milička, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 18.04.2024 |
Datum zadání: | 18.04.2024 |
Schválení administrátorem: | bylo schváleno |
Datum potvrzení stud. oddělením: | 18.04.2024 |
Datum a čas obhajoby: | 12.09.2024 08:40 |
Datum odevzdání elektronické podoby: | 01.08.2024 |
Datum proběhlé obhajoby: | 12.09.2024 |
Odevzdaná/finalizovaná: | odevzdaná studentem a finalizovaná |
Oponenti: | Mgr. Miroslav Kubát, Ph.D. |
Zásady pro vypracování |
Výpočtem gramatického statusu se v článku “Measuring grammatical status in Chinese through quantitative corpus analysis” zabývali v roce 2020 výzkumníci Sun a Saavedra. Na základě několika parametrů vypočítali gramatický status pro jednotlivá slova v datasetu. Při synchronní, na korpusu založené analýze vycházeli z předpokladu, že “jednotky se na ose od lexikonu ke gramatice nepřesouvají náhle z jedné kategorie do druhé, ale procházejí stupňovitým procesem zvyšující se gramatičnosti”. Následně zkoumali, zda a jak odpovídá naměřený index jednotky kategoriím, do kterých je jednotka běžně zařazována (na kontinuu lexikální - gramatické). Analýza probíhala na lancasterském korpusu standardní čínštiny (LCMC), který se skládá ze vzorků psaných textů publikovaných v ČLR kolem roku 1991. V korpusu autoři identifikovali 800 nejfrekventovanějších slov, a na nich metriky testovali.
Cílem práce bude replikovat postup - užití metrik a metod navržených Sun a Saavedrou. Jedná se o frekvenci tokenů, rozmanitost kolokací, rozmanitost vazeb (colligate diversity) a proporční odchylku. Výše zmíněné metriky autorka a autor modelovali pomocí lineárních modelů, což není jediný přístup, který lze aplikovat. V práci dále prozkoumáme možnost užití jiných metrik, a vyzkoušíme i odlišnou analýzu, například “random forests”. Lancasterský korpus je již otagovaný, množství ruční práce by tak nemělo být velké, hlavní jádro práce bude spočívat v analýze a interpretaci. |
Seznam odborné literatury |
HOPPER PJ, TRAUGOTT EC. Grammaticalization. 2nd ed. Cambridge University Press; 2003.
KÖHLER, Reinhard. "Synergetic linguistics." Contributions to Quantitative Linguistics: Proceedings of the First International Conference on Quantitative Linguistics, QUALICO, Trier, 1991. Dordrecht: Springer Netherlands, 1993. MIKULEC, Petr. Možnosti kvantitativního rozboru vybraných rysů současné čínštiny a čínských textů. Bakalářská práce, vedoucí Zádrapa, Lukáš. Univerzita Karlova, Filozofická fakulta, Ústav Dálného východu, 2018. SAAVEDRA, David. Measurements of Grammaticalization: Developing a Quantitative Index for the Study of Grammatical Change, Berlin, Boston: De Gruyter Mouton, 2021.https://doi.org/10.1515/9783110753073 SHI, Yuzhi. Yufahua de dongyin yu jizhi = Motivation and mechanism of grammaticalization in Chinese. Di 1 ban. Beijing: Beijing daxue chubanshe, 2006. ISBN 7-301-08215-0. SUN, Linlin & SAAVEDRA, David. (2020). Measuring grammatical status in Chinese through quantitative corpus analysis. Corpora. 15. 317-342. 10.3366/cor.2020.0202. TĚŠITELOVÁ, Marie. Quantitative linguistics. 1. vyd. Praha: Academia, 1992. 253 s. ISBN 80-200-0131-X. WU, Xiu-Zhi Zoe. Grammaticalization and Language Change in Chinese: A formal view, Routledge Studies in Asian Linguistics, Routledge, 2004. |