velikost textu

Automatická identifikace strukturních korespondencí v paralelním korpusu

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Automatická identifikace strukturních korespondencí v paralelním korpusu
Název v angličtině:
Automatic Identification of Structural Correspondences in a Parallel Corpus
Typ:
Disertační práce
Autor:
Ing. Pavel Kopřiva, Ph.D.
Školitel:
doc. RNDr. Vladimír Petkevič, CSc.
Oponenti:
Ing. Alexandr Rosen, Ph.D.
Mgr. Jan Štěpánek, Ph.D.
Id práce:
102127
Fakulta:
Filozofická fakulta (FF)
Pracoviště:
Ústav teoretické a komputační lingvistiky (21-UTKL)
Program studia:
Filologie (P7310)
Obor studia:
Matematická lingvistika (XMLI)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
14. 6. 2013
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Čeština
Klíčová slova:
paralelní korpus, pravidlo, chunk, zarovnání, syntax
Klíčová slova v angličtině:
parallel corpus, rule, chunk, alignment, syntax
Abstrakt:
Univerzita Karlova v Praze Filozo cká fakulta Ústav teoretické a komputa£ní lingvistiky Abstrakt diserta£ní práce Pavel Kop°iva Automatická identi kace strukturních korespondencí v paralelním korpusu Automatic identi cation of structural correspondences in a parallel corpus Matematická lingvistika korpusová lingvistika Vedoucí práce: doc. RNDr. Vladimír Petkevi£, CSc. 2013 Abstrakt (£esky) Cílem práce je navrhnout, implementovat a zhodnotit algoritmus, který by auto- maticky identi koval vzájemn¥ si odpovídající £ásti v¥t ve dvojjazy£ných para- lelních textech. Tyto £ásti se nazývají chunky a jejich identi kace vychází z roz- poznání jejich syntaktických struktur. Námi navrºený algoritmus pro vyhledávání chunk· je zaloºen na souboru pra- videl. Pravidla se skládají ze dvou hlavních £ástí: kon gura£ní a výkonné. Kon - gura£ní £ást stanovuje podmínky, které musí být spln¥ny, aby pravidlo mohlo být pouºito. T¥mito podmínkami jsou jednak poºadované vlastnosti sekvence chunk· v obou jazycích, jednak výchozí propojení chunk·. Výkonná £ást pravidla potom m·ºe vytvá°et nové chunky, vztahy rodi£dít¥ mezi nimi a také propojovat chunky mezi jazyky. Pravidla jsou speci cká pro danou dvojici jazyk·; v na²em p°ípad¥ jsme se zam¥°ili na £e²tinu a angli£tinu. Algoritmus p°edpokládá, ºe vstupní texty jsou zarovnány na úrovni slov. Dosaºené hodnoty m¥r úsp¥²nosti nejsou p°íli² vysoké. Ná² algoritmus byl po- m¥rn¥ úsp¥²ný v identi kaci chunk· a jejich syntaktických struktur v krátkých v¥tách. Problematické pro identi kaci chunk· jsou del²í souv¥tí a n¥které grama- tické konstrukce. Výsledky by se daly zp°esnit výrazným zvý²ením po£tu pravidel nebo vyuºitím r·zných slovník·. Zarovnání chunk· p°isp¥je k lep²ímu poznání strukturních podobností a rozdíl· mezi jazyky a ke zkvalitn¥ní automatického p°ekladu.
Abstract v angličtině:
Univerzita Karlova v Praze Filozo cká fakulta Ústav teoretické a komputa£ní lingvistiky Abstrakt diserta£ní práce Pavel Kop°iva Automatická identi kace strukturních korespondencí v paralelním korpusu Automatic identi cation of structural correspondences in a parallel corpus Matematická lingvistika korpusová lingvistika Vedoucí práce: doc. RNDr. Vladimír Petkevi£, CSc. 2013 Abstract (in English) The aim of this thesis is to design, implement and evaluate an algorithm which will automatically identify corresponding parts of sentences in bilingual parallel texts. These parts are called chunks and their identi cation is based on recognition of their syntactic structures. Our proposed algorithm for nding of chunks is based on a set of rules. The rules consist of two main parts: con guration and executive. The con guration part speci es the conditions that must be met so that the rule could be applied. These conditions are the required properties of the chunk sequences in both lan- guages and the initial chunk alignment. The executive part of the rule can then create new chunks, parentchild relationships between them, and align the chunks between the languages. The rules are speci c to a given language pair; in our case, we focused on the Czech and English languages. The algorithm assumes that the input texts are aligned at the word level. The achieved values of the accuracy measures are not high. Our algorithm was quite successful in identifying chunks and syntactic structures in short sentences. Longer sentences and some grammatical structures are di cult for chunk iden- ti cation. The results could be improved signi cantly by increasing the number of rules or by using additional vocabularies. The chunk alignment will contri- bute to a better understanding of structural similarities and dierences between languages and to the improvement of automatic translation.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Ing. Pavel Kopřiva, Ph.D. 2.22 MB
Stáhnout Příloha k práci Ing. Pavel Kopřiva, Ph.D. 769.28 MB
Stáhnout Abstrakt v českém jazyce Ing. Pavel Kopřiva, Ph.D. 50 kB
Stáhnout Abstrakt anglicky Ing. Pavel Kopřiva, Ph.D. 50 kB
Stáhnout Autoreferát / teze disertační práce Ing. Pavel Kopřiva, Ph.D. 239 kB
Stáhnout Posudek vedoucího doc. RNDr. Vladimír Petkevič, CSc. 110 kB
Stáhnout Posudek oponenta Ing. Alexandr Rosen, Ph.D. 72 kB
Stáhnout Posudek oponenta Mgr. Jan Štěpánek, Ph.D. 50 kB
Stáhnout Záznam o průběhu obhajoby 184 kB