Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Výpočet gramatického statusu: kvantitativní analýza čínských textů
Název práce v češtině: Výpočet gramatického statusu: kvantitativní analýza čínských textů
Název v anglickém jazyce: Calculation of grammatical status: quantitative analysis of Chinese texts
Klíčová slova: gramatický status|korpus|čínština|kvantitativní lingvistika|replikační studie
Klíčová slova anglicky: grammatical status|corpora|Chinese|quantitative linguistics|replication study
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav obecné lingvistiky (21-ULING)
Vedoucí / školitel: doc. PhDr. Jiří Milička, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 18.04.2024
Datum zadání: 18.04.2024
Schválení administrátorem: bylo schváleno
Datum potvrzení stud. oddělením: 18.04.2024
Datum a čas obhajoby: 12.09.2024 08:40
Datum odevzdání elektronické podoby:01.08.2024
Datum proběhlé obhajoby: 12.09.2024
Odevzdaná/finalizovaná: odevzdaná studentem a finalizovaná
Oponenti: Mgr. Miroslav Kubát, Ph.D.
 
 
 
Zásady pro vypracování
Výpočtem gramatického statusu se v článku “Measuring grammatical status in Chinese through quantitative corpus analysis” zabývali v roce 2020 výzkumníci Sun a Saavedra. Na základě několika parametrů vypočítali gramatický status pro jednotlivá slova v datasetu. Při synchronní, na korpusu založené analýze vycházeli z předpokladu, že “jednotky se na ose od lexikonu ke gramatice nepřesouvají náhle z jedné kategorie do druhé, ale procházejí stupňovitým procesem zvyšující se gramatičnosti”. Následně zkoumali, zda a jak odpovídá naměřený index jednotky kategoriím, do kterých je jednotka běžně zařazována (na kontinuu lexikální - gramatické). Analýza probíhala na lancasterském korpusu standardní čínštiny (LCMC), který se skládá ze vzorků psaných textů publikovaných v ČLR kolem roku 1991. V korpusu autoři identifikovali 800 nejfrekventovanějších slov, a na nich metriky testovali.
Cílem práce bude replikovat postup - užití metrik a metod navržených Sun a Saavedrou. Jedná se o frekvenci tokenů, rozmanitost kolokací, rozmanitost vazeb (colligate diversity) a proporční odchylku. Výše zmíněné metriky autorka a autor modelovali pomocí lineárních modelů, což není jediný přístup, který lze aplikovat. V práci dále prozkoumáme možnost užití jiných metrik, a vyzkoušíme i odlišnou analýzu, například “random forests”.
Lancasterský korpus je již otagovaný, množství ruční práce by tak nemělo být velké, hlavní jádro práce bude spočívat v analýze a interpretaci.
Seznam odborné literatury
HOPPER PJ, TRAUGOTT EC. Grammaticalization. 2nd ed. Cambridge University Press; 2003.
KÖHLER, Reinhard. "Synergetic linguistics." Contributions to Quantitative Linguistics: Proceedings of the First International Conference on Quantitative Linguistics, QUALICO, Trier, 1991. Dordrecht: Springer Netherlands, 1993.
MIKULEC, Petr. Možnosti kvantitativního rozboru vybraných rysů současné čínštiny a čínských textů. Bakalářská práce, vedoucí Zádrapa, Lukáš. Univerzita Karlova, Filozofická fakulta, Ústav Dálného východu, 2018.
SAAVEDRA, David. Measurements of Grammaticalization: Developing a Quantitative Index for the Study of Grammatical Change, Berlin, Boston: De Gruyter Mouton, 2021.https://doi.org/10.1515/9783110753073
SHI, Yuzhi. Yufahua de dongyin yu jizhi = Motivation and mechanism of grammaticalization in Chinese. Di 1 ban. Beijing: Beijing daxue chubanshe, 2006. ISBN 7-301-08215-0.
SUN, Linlin & SAAVEDRA, David. (2020). Measuring grammatical status in Chinese through quantitative corpus analysis. Corpora. 15. 317-342. 10.3366/cor.2020.0202.
TĚŠITELOVÁ, Marie. Quantitative linguistics. 1. vyd. Praha: Academia, 1992. 253 s. ISBN 80-200-0131-X.
WU, Xiu-Zhi Zoe. Grammaticalization and Language Change in Chinese: A formal view, Routledge Studies in Asian Linguistics, Routledge, 2004.
 
Univerzita Karlova | Informační systém UK