velikost textu

Popis staročeské apelativní deklinace (se zřetelem k automatické morfologické analýze textů ve Staročeské textové bance)

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Popis staročeské apelativní deklinace (se zřetelem k automatické morfologické analýze textů ve Staročeské textové bance)
Název v angličtině:
Description of Old Czech Common Nouns Declension (with regard to Automatic Morphological Analysis of Texts in Old Czech Text Bank)
Typ:
Disertační práce
Autor:
Mgr. Pavlína Jínová
Školitel:
Doc. RNDr. Karel Oliva, Dr.
Oponenti:
doc. RNDr. Vladimír Petkevič, CSc.
doc. Mgr. Miroslav Vepřek, Ph.D.
Id práce:
105475
Fakulta:
Filozofická fakulta (FF)
Pracoviště:
Ústav českého jazyka a teorie komunikace (21-UCJTK)
Program studia:
Filologie (P7310)
Obor studia:
Český jazyk (XCJ)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
23. 6. 2017
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Čeština
Klíčová slova:
stará čeština, morfologie, apelativa, deklinační typ, alternace, hlásková změna, lemmatizace, tagování
Klíčová slova v angličtině:
Old Czech, morphology, common nouns, declension type, alternation, sound change, lemmatization, tagging
Abstrakt:
Abstrakt Práce přináší explicitní popis staročeské apelativní deklinace, který může sloužit jako základ pro automatické vygenerování tvarů spojených s morfologickými charakteristikami a lemmatem. Tyto tvary mohou být poté využity pro přiřazování morfologických kategorií (rodu, čísla a pádu) a lemmatu k tvarům vyskytujícím se v elektronizovaných staročeských textech. Práce tak vytváří podklady pro první krok k přeměně textových bank, které v současnosti pro staročeské období existují, v šíře využitelný nástroj lingvistického výzkumu. Staročeským obdobím se přitom ve shodě s obecně přijatou periodizací myslí období od vzniku souvislých českých textů zhruba do roku 1500. Substantiva byla vybrána proto, že v současné češtině pokrývají zhruba 30 % textu, tedy nejvíce ze všech slovních druhů. V celé práci se zohledňují staročeské texty pouze v transkripci užívané v textech Staročeské textové banky budované v Ústavu pro jazyk český AV ČR, v. v. i. Pro automatickou morfologickou analýzu představuje transkripce velké usnadnění, protože standardizuje písmo i pravopis, zároveň je však třeba mít na zřeteli, že každá transkripce je interpretací a je do jisté míry závislá na rozhodnutí editora textu. V práci se pro popis staročeské apelativní deklinace využívají historické mluvnice, staročeské texty a slovníky staré češtiny. Historické mluvnice slouží jako východisko práce, jejich tvrzení byla systematicky ověřována a doplňována pomocí textů interní verze Staročeské textové banky. Verze použitá pro většinu témat obsahovala 7,6 milionu tokenů, k jejímu prohledávání byl využit nástroj Analýza tokenů, který umožňuje a) po zadání tvarotvorných základů (tj. části slova, kterou mají společnou všechny tvary paradigmatu) a koncovek generovat tvary a hromadně je hledat v textech, b) prohledávat tvary (ve smyslu typů) vyfiltrované na základě hlásek, jimiž tvar končí. Část použitých textů (3,2 mil. tokenů) prozatím neprošla finální redakční kontrolou. Pokud bylo třeba použít materiál v nich obsažený, byly doklady kontrolovány přímo v kopiích rukopisů nebo edic, ze kterých texty pocházejí. Slovníky pro starou češtinu zpřístupněné elektronicky ve Vokabuláři webovém sloužily jako základ pro přehled o slovní zásobě staročeského období. Žádný z nich však nepokrývá staročeské období celé a slovníky se metodologicky liší, proto je třeba do budoucna počítat s rozšiřováním a zpřesňováním údajů z nich získaných. Popis staročeské apelativní deklinace se skládá ze čtyř základních částí. První část představuje popis koncovek jednotlivých deklinačních typů (odpovídajících kmenům). Koncovky v ní jsou popsány jednak v textové formě, jednak ve formě tabulek. V tabulkách se zohledňuje i původ a doložení koncovek. V rámci jednotlivých deklinačních typů je popsán různý počet vzorů. Vzor byl definován jako jedinečný soubor koncovek, kterými se tvoří tvary určité skupiny slov (např. pojmenování pro osoby nebo apelativ s tvarotvorným základem zakončeným na veláru). Celkem bylo popsáno 96 vzorů ve 22 deklinačních typech (nejvíce zástupců mají mužské o-kmeny, střední ьjo-kmeny a ženské a-kmeny). V druhé části jsou popsány alternace, tedy změny tvarotvorného základu, které není možné nebo výhodné zavádět ve formě obecného pravidla, protože se nevyskytují u všech lemmat s danou formální stavbou (srov. pes-Ø – ps-a, ale les-Ø – les-a; kráv-a – krav-ám, ale krás-a – krás-ám), nebo by jejich zavádění formou pravidla bylo příliš složité (srov. hvězd-a – hvězd-Ø, otázk-a – otázek-Ø, šacht-a – šacht- Ø/šachet-Ø). Alternace jsou popsány v textové formě a pro jednotlivé typy alternací jsou zavedeny značky, jež jsou použity ve čtvrté části práce – seznamu pro generování tvarů – jako signál, jaká alternace tvarotvorného základu se u daného lemmatu objevuje. Celkem bylo nalezeno asi 120 typů alternací, nejvíce lemmat zasahují alternace působené jerovým nebo vkladným e. Ve třetí části jsou popsány hláskové změny, jež jsou zde pojímány jako formální proměny psaných tvarů, které lze zavést pomocí pravidla. Jedná se jednak o hláskové změny spojené s vývojem tvarů v daném období (např. viera – víra, bóh – buoh), vychází se přitom z hláskové podoby předpokládané k roku 1300, jednak o změny vznikající při spojování tvarotvorných základů a koncovek, z nichž některé jsou jen otázkou ortografie (např. vlk+i = vlci, líň+em = líněm). Hláskové změny jsou popsány ve formě textu a zároveň ve schematické formě jako pravidla, jaká písmena ubývají, přibývají, či se mění na jaká (případně i v jakém kontextu). Celkem bylo popsáno asi 100 takových pravidel. Čtvrtou částí podkladů je seznam apelativních lemmat, která jsou přiřazena ke vzoru a případně i k typu alternace, pokud se daného apelativa alternace týká. Základ seznamu vznikl automatickou extrakcí apelativních lemmat ze slovníků staré češtiny a byl rozsáhle manuálně tříděn a obohacován. Obsahuje asi 29 000 lemmat. Ve spojení s ostatními částmi bude seznam apelativních lemmat použit jako základ pro generování tvarů: ze seznamu lemmat budou získány tvarotvorné základy, které budou na základě informace o vzoru kombinovány s koncovkami (při zohlednění případných alternací). Pravidla pro hláskové změny zajistí formování tvarů podle fonotaktických a pravopisných pravidel i vytvoření všech pravidelných nástupnických podob. Kromě těchto částí obsahuje práce seznam výjimečných tvarů, jejichž systematické zavedení by podklady zbytečně zatěžovalo. Výhodou zvoleného postupu při budování nástroje pro značkování (tagování) a lemmatizaci je vznik systematického popisu formální morfologie daného období a s tím související možnost využít v automatické morfologické analýze i detailní lingvistickou informaci (deklinační typ, hláskové změny). Nezbytnou cenou za tento přístup je časová náročnost a přímá závislost popisu na zdrojích, s jejichž pomocí je budován. Předkládaný popis tedy nutně představuje pouze základ, který bude s rozvojem použitých zdrojů třeba aktualizovat a dotvářet. Na obecnější rovině práce testuje zvolený přístup jako celek – pokud na základě práce vznikne úspěšný nástroj pro automatickou morfologickou analýzu staročeských apelativ, bude možné stejný/podobný postup použít i pro ostatní slovní druhy.
Abstract v angličtině:
Abstract The thesis aims at explicit description of Old Czech common nouns declension with regard to its application in a tool for automatic morphological analysis of (digitized) texts in Old Czech. This means that this description is intended to serve as a basis for automatic generation of word forms (jointly with their appropriate morphological information and lemma) which will then be used for assigning morphological categories (gender, number, case) and lemma to word forms occurring in Old Czech digitized texts. The thesis thus develops a base for the first step in transformation of text banks (which currently exist for the Old Czech period) into an Old Czech corpus offering more possibilities for linguistic research. The Old Czech period is defined as a period from the beginning of the 14th century (more precisely from the period when first coherent texts written in Czech appeared) approx. to the end of the 15th century. Nouns were chosen for this work, because they cover approx. 30% of texts in current Czech (which is the highest percentage from all parts of speech). Old Czech texts are taken into account only in a transcribed form (based on transcription rules used in the Old Czech Text Bank developed at the Institute of the Czech Language of the Academy of Sciences of the Czech Republic). On the one hand, the transcription greatly facilitates automatic morphological analysis, because it standardizes both characters and orthography, on the other hand, it is important to bear in mind that every transcription is by necessity an interpretation, and hence it is dependent, at least to some extent, on editor´s decisions. Three sources of information were used for the Old Czech common nouns description – these are historical grammar books, Old Czech texts and dictionaries of Old Czech. The description of Old Czech common nouns declension in historical grammar books served as the starting point – the information provided was systematically checked and complemented using texts in the internal version of the Old Czech Text Bank. The version of this bank used for the majority of topics consisted of 7.6 mill. tokens. It was searched through by means of the Excel-based tool Analýza tokenů (Analysis of tokens) that enables a) to generate word forms on the grounds of a morphological basis (i.e. a part of a word common for all forms in a paradigm) and endings, and then to search for many word forms in texts at once, b) to display and search in lists of word forms filtered by sequences of characters at the end of word forms. Some texts in the range of approx. 3.2 mill. tokens of the internal version of the Old Czech Text Bank have not undergone a final editor check yet. Hence, in cases it was necessary to use some material from these texts, this material was always checked in copies of manuscripts or other sources of the original texts. The dictionaries of Old Czech accessible via web-interface Vokabulář Webový (Web Vocabulary) were used as the base for the list of Old Czech lemmata. However, as there is no dictionary covering the whole vocabulary of the Old Czech period, and the dictionaries differ in their methodology as well, the material extracted from them will require expansion and refinement. The description of Old Czech common noun declension presented in this thesis consists of four parts. In the first part, endings of declension types (which are historically stem-based) are described both in a text and in a tabular form. The historical origin and the positive text evidence of each ending are displayed in these tables as well. Each declension type consists of different number of declension patterns. A declension pattern is defined as a distinct set of endings which is used for a particular set of common nouns (e.g., nouns for persons, or nouns with stem final velar consonant) to create all word forms. Overall, 96 declension patterns of 22 declension types were described (the masculine o-stems, neuter ьjo-stems and feminine a-stems being the most numerous declension types). The second part describes alternations, i.e. changes in a morphological base that are impossible to apply in a form of a general rule because they do not apply to all lemmata with a given form (cf. pes-Ø [dog- NOM.SG] – ps-a [dog-GEN.SG], but les-Ø [forest-NOM.SG] – les-a [forest-GEN.SG]; kráv-a [cow-NOM.SG] – krav-ám [cow-DAT.PL], but krás-a [beauty-NOM.SG] – krás-ám [beauty-DAT.PL]), or their application in a form of a rule would be too complicated (cf. hvězd-a [star-NOM.SG] – hvězd-Ø [star-GEN.PL], otázk-a [question-NOM.SG] – otázek-Ø [question-GEN.PL], šacht-a [shaft-NOM.SG] – šacht-Ø/šachet-Ø [shaft- GEN.PL]). Alternations are described in a text and for each type of alternation a special label is used in the list of common noun lemmata (the fourth part of the thesis) as a signal that the given alternation applies to the given lemma. Overall, approx. 120 types of alternations were described (the alternation caused by yer vocalization and subsequent analogical development is applied for the highest number of lemmata). Sound changes are described in the third part. They were defined as formal changes of word forms which can be described by a general rule and they comprise both i) changes connected with language development in the Old Czech period (e.g., viera – víra [faith], bóh – buoh [god]), forms presumed for year 1300 being considered as base forms, and ii) changes occurring as a result of connecting a morphological base and an ending, some of these changes being a matter of orthography only (e.g., the morphological base vlk [wolf] connected with the ending -i [NOM.PL] results in the form vlci, or the base líň [tench] connected with the ending -em [INS.SG] results in the form líněm). Sound changes are described both in a text and in a form of rules specifying the changes of letters (taking into account context of the change, if necessary). Overall, almost 100 rules for sound changes were described. The list of common nouns lemmata represents the fourth part of the thesis. Here, lemmata are assigned to declension patterns and to alternation if there is any in the paradigm of the given lemma. The first version of this list was created by means of automatic extraction of common nouns lemmata from dictionaries of Old Czech and it was then sorted and extended manually. It consists of approx. 29,000 lemmata. In connection with other parts, this list will serve as a base for automatic generation of word forms: morphological bases will be extracted from lemmata and according to information on declension pattern, they will be combined with endings (with regard to eventual alternation), a correct connection of a base and an ending will be assured by sound changes and application of these changes will provide all other possible forms of the given word form as well. As a complement, the thesis contains also a list of exceptions whose systematic treatment would be pointless, as the exceptions are irregular and rare word forms. The main asset of the presented approach to the development of a tool for tagging and lemmatization is a creation of a complex description of formal morphology for the given period which makes it possible to use detailed linguistic information (declension type, sound/orthography changes) in the automatic morphological analysis. The price to be paid for such an approach, however, lies in its time consuming character and its direct dependency on sources upon which it is based. Therefore the presented description is meant as a base which will necessarily have to be updated and completed in connection with the development of sources used. At a more general level, the thesis tests the presented approach as a whole – if it becomes the base for a reliable tool for automatic morphological analysis of Old Czech common nouns, the similar/same approach will be used for other parts of speech as well in the future.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Pavlína Jínová 16.36 MB
Stáhnout Příloha k práci Mgr. Pavlína Jínová 2.55 MB
Stáhnout Abstrakt v českém jazyce Mgr. Pavlína Jínová 302 kB
Stáhnout Abstrakt anglicky Mgr. Pavlína Jínová 301 kB
Stáhnout Autoreferát / teze disertační práce Mgr. Pavlína Jínová 895 kB
Stáhnout Posudek vedoucího Doc. RNDr. Karel Oliva, Dr. 134 kB
Stáhnout Posudek oponenta doc. RNDr. Vladimír Petkevič, CSc. 225 kB
Stáhnout Posudek oponenta doc. Mgr. Miroslav Vepřek, Ph.D. 281 kB
Stáhnout Záznam o průběhu obhajoby 1.85 MB