velikost textu

Machine Translation Using Syntactic Analysis

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Machine Translation Using Syntactic Analysis
Název v češtině:
Strojový překlad s využitím syntaktické analýzy
Typ:
Disertační práce
Autor:
Mgr. Martin Popel
Školitel:
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Oponenti:
Ing. Pavel Ircing, Ph.D.
RNDr. Martin Čmejrek, Ph.D.
Konzultant:
prof. RNDr. Jan Hajič, Dr.
Id práce:
76088
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (P1801)
Obor studia:
Matematická lingvistika (4I3)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
19. 9. 2018
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
syntaktický strojový překlad, neuronový strojový překlad, hluboká neuronová síť, doménová adaptace
Klíčová slova v angličtině:
syntax-based machine translation, neural machine translation, deep neural networks, domain adaptation
Abstrakt:
Strojový překlad s využitím syntaktické analýzy Martin Popel Tato práce popisuje zlepšení anglicko-českého a česko-anglického strojo- vého překladu pomocí metod, které lze použít i na další jazyky. V první části je popsáno několik zlepšení hloubkově-syntaktického překladače TectoMT, například rozšíření pro další jazyky a domény nebo implementace nového typu překladových modelů využívajících kontext a různé metody strojového učení. V druhé části je popsán neuronový překladač Transformer a jeho vy- lepšení. Po detailní analýze vlivu různých hyperparametrů, bylo optimali- zováno trénování systému tak, že dosáhl o 1.0 BLEU lepšího překladu než nejlepší systém v soutěži WMT2017. Využitím jednojazyčných dat cílového jazyka pomocí nového typu zpětného překladu bylo dosaženo dalšího zlep- šení kvality překladu o 2.8 BLEU. Využitím doménové adaptace zohledňující „překladštinu“ (translationese) – tedy zohledněním toho, zda paralelní data jsou původně psána česky, nebo anglicky – byl výsledný systém vylepšen o dalších 0.2 BLEU. Tento výsledný neuronový překladač byl signifikantně lepší (p<0.05) než všechny ostatní anglicko-české a česko-anglické překladače v soutěži WMT2018. Podle výsledků ručního hodnocení byla kvalita tohoto strojového překladu dokonce vyšší než kvalita lidského referenčního překladu.
Abstract v angličtině:
Machine Translation Using Syntactic Analysis Martin Popel This thesis describes our improvement of machine translation (MT), with a special focus on the English-Czech language pair, but using techniques ap- plicable also to other languages. First, we present multiple improvements of the deep-syntactic system TectoMT. For instance, we implemented a novel context-sensitive translation model, comparing several machine learning ap- proaches. We also adapted TectoMT to other domains and languages. Sec- ond, we present Transformer – a state-of-the-art end-to-end neural MT sys- tem. We analyzed in detail the effect of several training hyper-parameters. With our optimized training, the system outperformed the best result on the WMT2017 test set by +1.0 BLEU. We further extended this system by uti- lization of monolingual training data and by a new type of backtranslation (+2.8 BLEU compared to the baseline system). In addition, we leveraged domain adaptation and the effect of “translationese” (i.e which language in parallel data is the original and which is the translation) to optimize MT systems for original-language and translated-language data (gaining further +0.2 BLEU). Our improved neural MT system significantly (p¡0.05) out- performed all other systems in English-Czech and Czech-English WMT2018 shared tasks, in terms of both automatic and manual evaluation. It was even significantly better than the human reference translation according to the manual evaluation.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Martin Popel 2.41 MB
Stáhnout Abstrakt v českém jazyce Mgr. Martin Popel 69 kB
Stáhnout Abstrakt anglicky Mgr. Martin Popel 68 kB
Stáhnout Posudek vedoucího doc. Ing. Zdeněk Žabokrtský, Ph.D. 71 kB
Stáhnout Posudek oponenta Ing. Pavel Ircing, Ph.D. 1002 kB
Stáhnout Posudek oponenta RNDr. Martin Čmejrek, Ph.D. 81 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Markéta Lopatková, Ph.D. 125 kB