Faktory ve frázovém statistickém strojovém překladu
Název práce v češtině: | Faktory ve frázovém statistickém strojovém překladu |
---|---|
Název v anglickém jazyce: | Factors in phrase-based statistical machine translation |
Klíčová slova: | statistický strojový překlad, faktorový překlad, výběr rysů |
Klíčová slova anglicky: | statistical machine transaltion, factored translation, feature selection |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Koehn a Hoang (2007) navrhli rozšíření frázového statistického strojového překladu o tzv. faktory, tedy rysy asociované s jednotlivými slovy (na zdrojové i cílové straně). Takovými rysy mohou být morfologické značky, základní slovní tvary, nejrůznější třídy slov nebo dokonce syntaktické informace. Jednotlivé modely (jazykové, překladové) potom mohou vyžívat různých faktorů (a jejich kombinací), nikoliv jen povrchových tvarů slov.
Použití faktorů může ale nemusí vést ke zlepšení kvality strojového překladu. Základním problémem je vhodná volba faktorů — zejména z hlediska řídkosti dat. Cílem této experimentální práce je optimalizace tvorby faktorů v anglicko-českém a česko-anglickém frázovém statistickém strojovém překladu s ohledem na entropii trénovacích dat. Evaluace bude prováděna na několika různých testovacích množinách. |
Seznam odborné literatury |
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151.
Philipp Koehn, Hieu Hoang. Factored Translation Models. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic. 2007. Aleš Tamchyna. Feature Selection for Factored Phrase-Based Machine Translation. Diplomová práce, MFF UK. 2012. |