velikost textu

Improvements to Syntax-based Machine Translation using Ensemble Dependency Parsers

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Improvements to Syntax-based Machine Translation using Ensemble Dependency Parsers
Název v češtině:
Využití kombinace závislostních syntaktických analyzátorů pro zlepšení kvality strojového překladu
Typ:
Disertační práce
Autor:
Nathan David Green, Ph.D.
Školitel:
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Oponenti:
cand.med, dr.phil. Eckhard Bick
RNDr. Daniel Zeman, Ph.D.
Id práce:
99980
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (P1801)
Obor studia:
Matematická lingvistika (4I3)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
24. 9. 2013
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstrakt:
Závislostní syntaktická analýza věty je jedním za základních výzkumných témat v oblasti zpracování přirozeného jazyka. Výzkum algoritmů pro závislostní analýzu byl dosud zaměřen především na omezené množství jazyků, pro které existuje dostatek trénovacích dat (převážně jde o evropské jazyky). Z dosavadního výzkumu tedy není snadné vyvodit, který algoritmus bude nejvhodnější pro některý další jazyk. Řešení, které navrhujeme, je pracovat místo jednotlivého analyzátoru se souborem několika analyzátorů. Konkrétně zkoumáme tři metody. Zaprvé, sloučíme výstupy jednotlivých analyzátorů do grafu a výsledný závislostní strom sestavíme prostřednictvím hlasování analyzátorů na jednotlivých uzlech. Zadruhé, váhy jednotlivých závislostních hran v grafu určíme na základě seskupení analyzátorů pomocí metody fuzzy clustering, jejímž vstupem je zde rozložení chyb jednotlivých analyzátorů napříč slovními druhy. Zatřetí, implementujeme meta-klasifikátor, který pro každé slovo v dané větě určí nejdůvěryhodnější analyzátor. Závislostní analyzátory, které používáme, jsou založeny na několika odlišných technikách -. jde o grafové analyzátory, přechodové analyzátory a analyzátory spočívající v konverzi ze složkových stromů. Právě tato škála různých analyzátorů nám umožňuje studovat chyby spojené s jednotlivými technikami a vybrat nejvhodnější kombinaci analyzátorů pro danou situaci. Závislostní analyzátory jsou typicky vyhodnocovány pouze na základě počtu správně zavěšených uzlů, případně s přihlédnutím ke správnosti přiřazené syntaktické funkce. Pokud je pro některý z jazyků s dostatkem trénovacích dat a vysokým dosaženým skóre vyvinuta nová technika, její výsledky jsou ve srovnání se stávajícími technikami často stejné nebo horší. Posun v úspěšnosti se pak typicky omezuje jen na úzce vyměřenou jazykovou konstrukci nebo textovou doménu. Taková zlepšení pak ale nelze přenést na jazyky s malým množstvím dat. Abychom se ujistili, že náš přístup přenositelný je, testujeme jej na velkých i malých datech pro několik jazyků z různých jazykových rodin. Zvláštní důraz klademe na jazyky s malým množstvím zdrojů, u kterých navíc experimentujeme s metodami částečně řízeného strojového učení (self-training). Pro jazyky s malým množstvím zdrojů může tento přístup výrazně přispět ke kvalitě analyzátorů i k efektivnější přípravě dalších trénovacích dat. V případě, že pracujeme se soubory analyzátorů, navíc vyvstává možnost přetrénovat jednotlivé analyzátory s pomocí výstupů zkombinovaných ze všech analyzátorů. Ať už jde o jazyky s malým nebo velkým množstvím datových zdrojů, domníváme se, že počet správně zavěšených hran by neměl být jediným ukazatelem určujícím užitečnost jednotlivých analyzátorů. Pro změření reálného významu jednotlivých zlepšení jsme si jako konkrétní aplikaci vybrali strojový překlad. Existuje řada přístupů ke strojovému překladu, založených na lingvistických pravidlech i na statistickém modelování. Pokud se daný systém strojového překladu skládá z posloupnosti jednotlivých komponent, vzniká otázka, jak vážně poškodí chyby vzniklé už na začátku posloupnosti výslednou kvalitu překladu. Například dvouprocentní chyba v určování slovních druhů může vést k podstatně větší chybě v následné syntaktické analýze a vliv na počet chyb v konečném překladu může být kvůli šíření chyby ještě větší. Snižování chybovosti komponent umístěných na začátku procesu je tedy podstatné, a to i proto, aby se badatelé mohli soustředit na samotné jádro překladu a ne na potlačování důsledků chyb vzniklých v analýze. Abychom mohli experimentálně vyhodnotit vliv různých syntaktických analyzátorů na kvalitu překladu, používáme překladový systém TectoMT implementovaný v prostředí Treex. Na rozdíl od dnes dominujících systému frázového překladu je systém TectoMT založen na překladu přes závislostní strukturu nazývanou tektogramatický strom. V tomto experimentálním prostředí tedy můžeme zkoumat vztah mezi množstvím správně určených závislostních hran a správností překladu aproximovanou pomocí standardních měr BLEU a NIST. Překážkou pro vyhodnocení těchto experimentů byla skutečnost, že pro angličtinu neexistovala žádná ručně anotovaná závislostní data. Standardním řešením bylo použít pro testování i trénování složkové stromy automaticky zkonvertované do závislostí, nicméně tento přístup vede k systematické chybě ve vyhodnocení. Z tohoto důvodu jsme ručně oanotovali závislostní stromy pro část anglických textů z překladové soutěže WMT 2012 a pro část složkového korpusu Penn Treebank. V této disertaci ukazujeme možná zlepšení jak samotné závislostní syntaktické analýzy, tak strojového překladu, který z takové analýzy vět vychází. Vedle toho jsme se pokusili vyrobit ručně anotovaná data, která mohou v budoucnu posloužit jako zlatý standard pro další experimenty.
Abstract v angličtině:
Dependency parsing is an integral part of Natural Language Processing (NLP) research for many languages. Research in dependency parsing has mainly dealt with improving accuracy for a limited number of languages. Current de- pendency parsing algorithms have developed mainly for languages with an ample amount of training data. Most of this data has been collected for shared tasks at conferences and are available mainly for European and resource-rich languages. New researchers into the area may not know which algorithm and techniques work best with a new, untested, language. To address this issue, we will look at ensemble approaches to dependency parsing. More specifically, we look at three methods. First, stacking parsers’ outputs into a weighted graph and extracting a tree structure using simple voting. Second, analyzing each parsers’ errors distribution and using that as an input into the weighted graph through fuzzy clustering methods. Third, using a meta-classifier to choose the best parser for each and every word in our input. The parsers in each situation may come from a variety of techniques such as graph-based, transition-based, and constituent conversion. Using a variety of parsers allows us to study the errors associated with the parsers and choose the best combination or individual parser for each situation. Even though many tools exist for these European and resource-rich lan- guages, dependency parsing techniques are most commonly only tested using accuracy scores, both unlabeled and labeled. If a new technique is developed for a high accuracy such as English or Japanese, the results are often equivalent to existing techniques or sometimes worse. Due to this, research is often only concerned with a very specific linguistic construction, domain, or localized fea- ture. This often leads to a scenario, where one size does not fit all, particularly for under-resourced languages. To make sure our techniques are useful for most languages, we analyzed them on large and small language data sets from a variety of language fam- ilies. We want to give special attention to under-resourced languages, so we additionally show techniques on semi-supervised training via self-training. For under-resourced languages, self-training can be an important tool both for parser accuracy and for creating new annotated data. When using ensemble parsers, a fundamental self-training question arises on whether the individual parsers should be retrained on their own data or on ensemble data. Whether under- resourced or resource-rich, we feel that limiting the analysis to accuracy scores does not fully determine whether a technique is useful or not. To test our techniques down a typical NLP pipeline, we turn to machine translation. Machine translation is often the first task people want solved for their lan- guage but often the last step in the process. Many components go into a suc- cessful system. These systems come in a variety of forms, whether rule-based or statistically based. One concern for machine translation is whether the early components of the pipeline are accurate. A 2% error in part-of-speech tagging may lead to a much higher percentage of parsing errors which in turn ends up in a double figure error rate in the final translation. Reducing the errors in early pipeline components is a prime concern so that researchers in machine translation can focus on the actual translation and not generalize earlier errors. 1 To examine the effects of dependency parsing down the NLP pipeline. Our dependency models will be evaluated using the Treex system and TectoMT translation system. This system, as opposed to other popular machine trans- lation systems, makes direct use of the dependency structure during the con- version from source to target languages via a tectogrammatical tree translation approach. We will compare UAS accuracy to corresponding NIST and BLEU scores from the start to finish of the machine translation pipeline. Unfortunately any current approach to test dependency parsing’s effect on machine translation is going to run into one major road block. There is no gold data for English dependency trees that has a corresponding gold standard translation. For the vast majority of English dependency parsers, the status quo is to train with data automatically converted from constituent trees. This leads to a final parse with at least an 8% error rate in UAS. This is too high of a rate to truly test the dependency’s effect on the final output of the NLP pipeline. To address this issue we have hand annotated dependency trees for the WMT 2012 data set, commonly used to judge machine translation systems. Additionally, to improve future parser training and constituent conversions, we have hand corrected the dependency trees in one section of the Penn Treebank. Within this dissertation, we aim to show both improvements to dependency parsing using ensemble methods for a variety of languages including under- resourced and resource-rich and show how these new dependency parsers effect the overall result in a machine translation pipeline. In addition to these re- sults, we have developed new gold standard dependency trees for the purpose of machine translation. We have also determined an improved standard for constituent conversions through empirical means discovered from manual anno- tation of a part of the Penn Treebank. 2
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Nathan David Green, Ph.D. 1.63 MB
Stáhnout Abstrakt v českém jazyce Nathan David Green, Ph.D. 36 kB
Stáhnout Abstrakt anglicky Nathan David Green, Ph.D. 27 kB
Stáhnout Posudek vedoucího doc. Ing. Zdeněk Žabokrtský, Ph.D. 543 kB
Stáhnout Posudek oponenta cand.med, dr.phil. Eckhard Bick 21 kB
Stáhnout Posudek oponenta RNDr. Daniel Zeman, Ph.D. 252 kB
Stáhnout Záznam o průběhu obhajoby 266 kB