velikost textu

Evaluace chybové anotace v žákovském korpusu češtiny

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Evaluace chybové anotace v žákovském korpusu češtiny
Název v angličtině:
Evaluation of Error Mark-Up in a Learner Corpus of Czech
Typ:
Disertační práce
Autor:
Mgr. Barbora Štindlová, Ph.D.
Školitel:
prof. PhDr. Karel Šebesta, CSc.
Oponenti:
doc. RNDr. Vladimír Petkevič, CSc.
PaedDr. Jaromíra Šindelářová, CSc.
Id práce:
25046
Fakulta:
Filozofická fakulta (FF)
Pracoviště:
Ústav českého jazyka a teorie komunikace (21-UCJTK)
Program studia:
Filologie (P7310)
Obor studia:
Český jazyk (XCJ)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
30. 6. 2011
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Čeština
Abstrakt:
Název práce: Evaluace chybové anotace v žákovském korpusu češtiny Autor: Barbora Štindlová Ústav: Ústav českého jazyka a teorie komunikace, Filozofická fakulta, Univerzita Karlova Vedoucí disertační práce: prof. PhDr. Karel Šebesta, CSc. Abstrakt: Předkládaná práce se obecně týká tématu češtiny jako cizího jazyka a částečně zasahuje do oblasti korpusové lingvistiky, neboť se věnuje problematice žákovských korpusů, především pak otázkám jejich chybového značkování a možnostem evaluace anotačních schémat. Žákovské korpusy se staly významným zdrojem pro poznání žákovského mezijazyka a významným stimulem pro různé oblasti studia a výuky cizího, resp. druhého jazyka. Jsou využívány zejména pro kontrastivní srovnávání jazyka rodilých a nerodilých mluvčích, resp. srovnávání žákovských mezijazyků a pro tzv. počítačem podporovanou chybovou analýzu žákovského jazyka. Pro tento typ analýzy má zcela zásadní důležitost tzv. chybové značkování. Chybové značkování je u každého korpusu, pokud jej používá, založeno na chybové typologii, jejíž vymezení je v mnoha teoretických aspektech problematické. Z toho důvodu je důležitým krokem při výstavbě žákovského korpusu zhodnocení spolehlivosti a validity navrženého anotačního schématu. Disertační práce se zaměřuje především na technické aspekty a specifické problémy při elektronizaci rukopisů, na možnosti chybové anotace projevů nerodilých mluvčích a problematiku její evaluace. Zároveň však věnuje značný prostor i metodologii, koncepci a účelu budování žákovských korpusů, protože téma korpusu nerodilých mluvčích a jeho využití je v českém prostředí relativně nové a je vhodné jej podrobněji představit. V první části (A) jsou stručně shrnuty základní přístupy k otázkám nabývání cizího, resp. druhého jazyka a podrobněji představeny proměny teorie chyby v jazyce nerodilých mluvčích. V části (B) předkládám shrnutí aktuálního stavu problematiky a uvádím podrobný přehled existujících korpusů jazyka nerodilých mluvčích založený na dotazníkovém šetření a podrobné analýze dostupných žákovských korpusů. Třetí část práce (C) představuje budovaný žákovský korpus češtiny nerodilých mluvčích (CzeSL) a soustředí se především na problematiku přepisu dat. Čtvrtá část disertace (D) se zabývá evaluací konceptu chybové anotace navržené pro žákovský korpus CzeSL. Pro zhodnocení spolehlivosti anotačního schématu byl zvolen výpočet tzv. koeficientu mezianotátorské shody kappa. Výsledky měření mezianotátorské shody, analýza anotačních problémů, návrhy jejich řešení a zhodnocení anotačního schématu včetně chybové taxonomie jsou jedním z hlavních výsledků této práce. Klíčová slova: žákovský korpus, chybová anotace, elektronizace rukopisů, mezianotátorská shoda, mezijazyk
Abstract v angličtině:
Title: Evaluation of Error Mark-Up in a Learner Corpus of Czech Author: Barbora Štindlová Department: Institute of Czech Language and Theory of Communication, Faculty of Arts, Charles University in Prague Supervisor: prof. PhDr. Karel Šebesta, CSc. Abstract: The thesis deals with the topic of Czech as a second language, while introducing methods of corpus linguistics as applied to texts produced by language learners. The context is the process of building and exploiting a learner corpus, with a focus on its error mark-up and options for evaluating the annotation scheme. Learner corpora have become a major resource for investigating a learner interlanguage and a significant incentive for many different types of research and teaching of second/foreign languages. They are used mainly for contrastive studies of native and non-native speakers, i.e. for contrastive interlanguage analysis, and for computer-aided error analysis of the learner language. This kind of analysis is crucially dependent on the type and quality of the error mark-up. In every error-annotated corpus the error annotation is based on an error typology, which is necessarily problematic from a number of theoretical aspects. Evaluation of the reliability and validity of the annotation scheme design is therefore an important step in the build-up of a learner corpus. The thesis is concerned primarily with the technical aspects and specific issues involved in the digitization of hand-written texts, with options for the error annotation of non-native speakers' language, and with the issues of its evaluation. At the same time, a significant amount of space is devoted to the questions of methodology, architecture and purpose of the compilation of learner corpora, because the topic of a non-native speakers' corpus and its exploitation in the Czech environment is quite recent and thus a more detailed introduction is justified. In the first part (A), several major approaches to the issues of foreign/second language acquisition are briefly summarized and the developments in the theory of error in non-native speakers' language are presented in more detail. In part B, a summary of the current state of the field is presented together with an overview of existing corpora of non-native speakers' language, the result of a questionaire-based research and a detailed analysis of available learner corpora. The third part (C) presents a learner corpus of non-native speakers' Czech (CzeSL), focusing on the issues of text transcription. In the fourth part (D), the error annotation scheme proposed for CzeSL is subjected to evaluation. To assess the reliability of the annotation scheme a measure of inter-annotator agreement – the coefficient kappa – is used. The measured results of the inter-annotator agreement, the analysis of the problematic points in the annotation scheme, and the evaluation of the scheme, including the error taxonomy, represent some of the main assets of the present thesis. Keywords: learner corpus, error annotation, text transcription, inter-annotator agreement, interlanguage
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Barbora Štindlová, Ph.D. 4.57 MB
Stáhnout Abstrakt v českém jazyce Mgr. Barbora Štindlová, Ph.D. 124 kB
Stáhnout Abstrakt anglicky Mgr. Barbora Štindlová, Ph.D. 72 kB
Stáhnout Posudek vedoucího prof. PhDr. Karel Šebesta, CSc. 20 kB
Stáhnout Posudek oponenta doc. RNDr. Vladimír Petkevič, CSc. 182 kB
Stáhnout Posudek oponenta PaedDr. Jaromíra Šindelářová, CSc. 209 kB
Stáhnout Záznam o průběhu obhajoby 193 kB