velikost textu

Formalizace systému české morfologie s ohledem na automatické zpracování českých textů

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Formalizace systému české morfologie s ohledem na automatické zpracování českých textů
Název v angličtině:
Formalization of the Czech morphology system with respect to automatic processing of Czech texts
Typ:
Disertační práce
Autor:
RNDr. Jaroslava Hlaváčová, Ph.D.
Školitel:
doc. RNDr. Vladimír Petkevič, CSc.
Oponenti:
Doc. RNDr. Karel Oliva, Dr.
PhDr. Klára Osolsobě, Ph.D.
Id práce:
24570
Fakulta:
Filozofická fakulta (FF)
Pracoviště:
Ústav českého národního korpusu (21-UCNK)
Program studia:
Filologie (P7310)
Obor studia:
Matematická lingvistika (XMLI)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
22. 5. 2009
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Čeština
Abstrakt:
P°esný morfologický popis slovních tvar· je prvním p°edpokladem pro úspné automatické zpracování jazykových dat. Systém kategorií a jejich hodnot, které se k popisu pouoívají, jsou náplní první ásti práce. Základním principem je tzv. Zlaté pravidlo morfologie, které °íká, oe kaodý slovní tvar by ml být v systému popsán jednoznan. Existence variant na úrovni slovních tvar· i celých paradigmat vak splnní tohoto pravidla komplikuje. Koncept variant rozi°ujeme na tzv. mutace, mezi které °adíme i jiné mnooiny slovních tvar· se stejným popisem (nap°. víceré tvary osobn ích zájmen). Mutace dlíme na globální pro popis na úrovni paradigmat a ektivní pro popis jednotlivých slovních tvar·. Toto rozdlení nám umoo¬uje postihnout jejich asté kombinace. Upoutíme od dlení variant (mutací) podle stylového p°íznaku jako neobjektivního kritéria. P°i d·sledném vyuoívání hodnot kategorií Flektivní mutace a Globální mutace z·stane Zlaté pravidlo morfologie vody splnno. V kapitole o lemmatizaci zavádíme vícenásobné lemma pro popis variantn ích lemmat. Podrobn se zabýváme popisem tzv. slooenin, tedy slovních tvar· typu za, pro¬, koupilas, koliks. Pro jejich lemmatizaci rovno vyuoíváme konceptu ví- cenásobného lemmatu. Podle slovních druh· jejich slooek je dlíme na nkolik typ·. Zabýváme se téo problémem jejich vyhledávání v jazykových korpusech. Druhá ást práce popisuje systém vzor· pro popis slovních tvar· jednotliv ých slovních druh·. U kaodého vzoru uvádíme sadu parametr·, které umooní postihnout velkou variabilitu v tvo°ení konkrétních paradigmat. Vnujeme se i pravidelnému odvozování p°íbuzných slov pomocí sux·.
Abstract v angličtině:
Detailed morphological description of word forms represents one of the most important conditions of a successful automatic processing of linguistic data. The system of categories and their values which are used for the description are the subject of the rst part of the thesis. The basic principle, so-called Golden rule of morphology, states that every word form has to be described by the system unambiguously. The existence of variants of word forms and whole paradigms, however, complicates the accomplishment of this rule.We introduce so called mutations as an extension of the variants to be able to include other sets of word forms with the same description (for instance multiple word forms of Czech personal pronouns). We divide mutations into two parts global ones describing all word forms of a paradigm, and inectional ones for the description on the word form level. This division enables us to express their various combinations. We do not use features of style for the mutation division, for they are subjective. With a consistent use of the categories called Inectional Mutation and Global Mutation, the Golden rule of morphology will always be valid. The concept of multiple lemma is introduced in a chapter dealing with lemmatization. It describes lemma variants. We give a detailed description of so-called compounds, which incorporate word forms of the type za, pro¬, koupilas, koliks. The concept of multiple lemma is also used for their lemmatization. According to the word class of their components we divide the compounds into several types. We also deal with the problem of their searching in language corpora. The second part of the thesis describes a system of patterns for word description. It is divided according to the part of speech. Each pattern has a special set of parameters that allow to grasp a large variability in word formation. We also deal with regular derivations of related words using suxes.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce RNDr. Jaroslava Hlaváčová, Ph.D. 1.47 MB
Stáhnout Abstrakt v českém jazyce RNDr. Jaroslava Hlaváčová, Ph.D. 81 kB
Stáhnout Abstrakt anglicky RNDr. Jaroslava Hlaváčová, Ph.D. 81 kB
Stáhnout Autoreferát / teze disertační práce RNDr. Jaroslava Hlaváčová, Ph.D. 188 kB
Stáhnout Posudek vedoucího doc. RNDr. Vladimír Petkevič, CSc. 42 kB
Stáhnout Posudek oponenta Doc. RNDr. Karel Oliva, Dr. 77 kB
Stáhnout Posudek oponenta PhDr. Klára Osolsobě, Ph.D. 156 kB