Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Výpočet gramatického statusu: kvantitativní analýza čínských textů

Název práce v češtině:	Výpočet gramatického statusu: kvantitativní analýza čínských textů
Název v anglickém jazyce:	Calculation of grammatical status: quantitative analysis of Chinese texts
Klíčová slova:	gramatický status\|korpus\|čínština\|kvantitativní lingvistika\|replikační studie
Klíčová slova anglicky:	grammatical status\|corpora\|Chinese\|quantitative linguistics\|replication study
Akademický rok vypsání:	2023/2024
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav obecné lingvistiky (21-ULING)
Vedoucí / školitel:	doc. PhDr. Jiří Milička, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	18.04.2024
Datum zadání:	18.04.2024
Schválení administrátorem:	bylo schváleno
Datum potvrzení stud. oddělením:	18.04.2024
Datum a čas obhajoby:	12.09.2024 08:40
Datum odevzdání elektronické podoby:	01.08.2024
Datum proběhlé obhajoby:	12.09.2024
Odevzdaná/finalizovaná:	odevzdaná studentem a finalizovaná
Oponenti:	Mgr. Miroslav Kubát, Ph.D.

Zásady pro vypracování

Výpočtem gramatického statusu se v článku “Measuring grammatical status in Chinese through quantitative corpus analysis” zabývali v roce 2020 výzkumníci Sun a Saavedra. Na základě několika parametrů vypočítali gramatický status pro jednotlivá slova v datasetu. Při synchronní, na korpusu založené analýze vycházeli z předpokladu, že “jednotky se na ose od lexikonu ke gramatice nepřesouvají náhle z jedné kategorie do druhé, ale procházejí stupňovitým procesem zvyšující se gramatičnosti”. Následně zkoumali, zda a jak odpovídá naměřený index jednotky kategoriím, do kterých je jednotka běžně zařazována (na kontinuu lexikální - gramatické). Analýza probíhala na lancasterském korpusu standardní čínštiny (LCMC), který se skládá ze vzorků psaných textů publikovaných v ČLR kolem roku 1991. V korpusu autoři identifikovali 800 nejfrekventovanějších slov, a na nich metriky testovali.
Cílem práce bude replikovat postup - užití metrik a metod navržených Sun a Saavedrou. Jedná se o frekvenci tokenů, rozmanitost kolokací, rozmanitost vazeb (colligate diversity) a proporční odchylku. Výše zmíněné metriky autorka a autor modelovali pomocí lineárních modelů, což není jediný přístup, který lze aplikovat. V práci dále prozkoumáme možnost užití jiných metrik, a vyzkoušíme i odlišnou analýzu, například “random forests”.
Lancasterský korpus je již otagovaný, množství ruční práce by tak nemělo být velké, hlavní jádro práce bude spočívat v analýze a interpretaci.

Seznam odborné literatury

HOPPER PJ, TRAUGOTT EC. Grammaticalization. 2nd ed. Cambridge University Press; 2003.
KÖHLER, Reinhard. "Synergetic linguistics." Contributions to Quantitative Linguistics: Proceedings of the First International Conference on Quantitative Linguistics, QUALICO, Trier, 1991. Dordrecht: Springer Netherlands, 1993.
MIKULEC, Petr. Možnosti kvantitativního rozboru vybraných rysů současné čínštiny a čínských textů. Bakalářská práce, vedoucí Zádrapa, Lukáš. Univerzita Karlova, Filozofická fakulta, Ústav Dálného východu, 2018.
SAAVEDRA, David. Measurements of Grammaticalization: Developing a Quantitative Index for the Study of Grammatical Change, Berlin, Boston: De Gruyter Mouton, 2021.https://doi.org/10.1515/9783110753073
SHI, Yuzhi. Yufahua de dongyin yu jizhi = Motivation and mechanism of grammaticalization in Chinese. Di 1 ban. Beijing: Beijing daxue chubanshe, 2006. ISBN 7-301-08215-0.
SUN, Linlin & SAAVEDRA, David. (2020). Measuring grammatical status in Chinese through quantitative corpus analysis. Corpora. 15. 317-342. 10.3366/cor.2020.0202.
TĚŠITELOVÁ, Marie. Quantitative linguistics. 1. vyd. Praha: Academia, 1992. 253 s. ISBN 80-200-0131-X.
WU, Xiu-Zhi Zoe. Grammaticalization and Language Change in Chinese: A formal view, Routledge Studies in Asian Linguistics, Routledge, 2004.