velikost textu

Diachronní srovnání synchronních korpusů

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Diachronní srovnání synchronních korpusů
Název v angličtině:
Diachronic comparison of synchronic corpora
Typ:
Disertační práce
Autor:
Mgr. Michal Křen, Ph.D.
Školitel:
prof. PhDr. František Čermák, DrSc.
Oponenti:
prof. PhDr. Karel Kučera, CSc.
RNDr. Jan Králík, CSc.
Id práce:
120960
Fakulta:
Filozofická fakulta (FF)
Pracoviště:
Ústav českého národního korpusu (21-UCNK)
Program studia:
Filologie (P7310)
Obor studia:
Matematická lingvistika (XMLI)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
29. 5. 2012
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Čeština
Klíčová slova:
synchronní korpusy, diachronní srovnání, lexikální frekvence, jazykový vývoj, jazyková variabilita, složení korpusu, reprezentativnost
Klíčová slova v angličtině:
synchronic corpora, diachronic comparison, lexical frequencies, language change, language variability, corpus composition, representativeness
Abstrakt:
Abstrakt Práce představuje metodu pro diachronní srovnání synchronních korpusů zachycu- jících blízké stavy jazyka. Cílem práce je především zhodnotit možnosti a meze de- tekce vývojových tendencí v jazyce na materiálu synchronních psaných korpusů řady SYN. Metodologicky jde o corpus-driven přístup založený na statistickém vyhodno- cení rozdílů mezi normalizovanými průměrnými redukovanými frekvencemi lemmat a lexikálních kombinací. Metoda je aplikována v několika variantách na různě definované subkorpusy korpusu SYN a podrobně vyhodnocena. Provedené srovnání ztěžuje především vliv složení jednotlivých korpusů a provázanost změn v jazyce se změnami společenskými. Protože neumíme spolehlivě odlišit zárodky diachronních posunů od přirozeně existující synchronní variability, je statisticky zjištěná významnost frekvenčních rozdílů jednotlivých výrazů zpětně ověřována na korpusech a interpretace výsledků korigována znalostí jejich přesného složení. Závěry jsou založeny především na publicistice, která je z psaného jazyka nejvíce otevřená změnám. Změny v jazyce publicistiky lze charakterizovat jako tematický od- klon od původní politické a ekonomické orientace směrem k tématům týkajícím se praktického života a využívání volného času spojený se zvyšující se neformálností, která způsobuje posuny ve frekvencích některých slovních druhů, frekvenční nárůst řady lemmat z jádra slovní zásoby, vzrůstající podíl významově oslabených sloves, ob- měnu některých šablonovitých spojení atd. K přínosům práce patří také vyhodnocení složení korpusů řady SYN, zvláště reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Výsledkem jsou praktická doporučení ke změnám v konceptu reprezentativnosti, kategorizaci textů a složení kor- pusových dat, která tvoří cennou zpětnou vazbu pro budování dalších korpusů této řady.
Abstract v angličtině:
Abstract The thesis presents a method for diachronic comparison of synchronic corpora that reflect language of very close time periods. Its primary aim is the assessment of possi- bilities and limitations of language change detection based on the synchronic written SYN-series corpora. The approach is corpus-driven, based on a statistical evaluation of differences among normalized average reduced frequencies of lemmata and lexical combinations. There are several variants of the method applied on various subcorpora of corpus SYN and their results examined in detail. Difficulty of the comparison lies in the influence of corpus composition and the interconnection of changes in language with changes in society. As it is not easy to distinguish the signs of diachronic shift from naturally existing synchronic variability, the statistically discovered significance of frequency differences is additionally verified by querying the base corpora. The interpretation of the results is also adjusted by the knowledge of their exact composition. The conclusions are based mainly on the newspapers as a written text type that is most receptive to the changes. The changes can be characterized as a thematic diversion from the original political and economical orientation of the newspapers towards real- life and free-time topics associated with increasing informality of the language. The informality has an impact on shifts in part-of-speech frequencies, frequency increase of a number of core vocabulary lemmata, growing share of semantically weak verbs, substitution of some conventional expressions etc. The thesis also contributes to the evaluation of composition of the SYN-series cor- pora, especially the representative corpora SYN2000, SYN2005 and SYN2010. As a result, a number of practical improvements of the concept of representativeness, text categorization and data composition are formulated. The suggestions constitute a valu- able feedback for compilation of future SYN-series corpora.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Michal Křen, Ph.D. 1.99 MB
Stáhnout Abstrakt v českém jazyce Mgr. Michal Křen, Ph.D. 53 kB
Stáhnout Abstrakt anglicky Mgr. Michal Křen, Ph.D. 52 kB
Stáhnout Posudek vedoucího prof. PhDr. František Čermák, DrSc. 44 kB
Stáhnout Posudek oponenta prof. PhDr. Karel Kučera, CSc. 119 kB
Stáhnout Posudek oponenta RNDr. Jan Králík, CSc. 172 kB
Stáhnout Záznam o průběhu obhajoby 43 kB