Faktory ve frázovém statistickém strojovém překladu
Thesis title in Czech: | Faktory ve frázovém statistickém strojovém překladu |
---|---|
Thesis title in English: | Factors in phrase-based statistical machine translation |
Key words: | statistický strojový překlad, faktorový překlad, výběr rysů |
English key words: | statistical machine transaltion, factored translation, feature selection |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: |
Guidelines |
Koehn a Hoang (2007) navrhli rozšíření frázového statistického strojového překladu o tzv. faktory, tedy rysy asociované s jednotlivými slovy (na zdrojové i cílové straně). Takovými rysy mohou být morfologické značky, základní slovní tvary, nejrůznější třídy slov nebo dokonce syntaktické informace. Jednotlivé modely (jazykové, překladové) potom mohou vyžívat různých faktorů (a jejich kombinací), nikoliv jen povrchových tvarů slov.
Použití faktorů může ale nemusí vést ke zlepšení kvality strojového překladu. Základním problémem je vhodná volba faktorů — zejména z hlediska řídkosti dat. Cílem této experimentální práce je optimalizace tvorby faktorů v anglicko-českém a česko-anglickém frázovém statistickém strojovém překladu s ohledem na entropii trénovacích dat. Evaluace bude prováděna na několika různých testovacích množinách. |
References |
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151.
Philipp Koehn, Hieu Hoang. Factored Translation Models. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic. 2007. Aleš Tamchyna. Feature Selection for Factored Phrase-Based Machine Translation. Diplomová práce, MFF UK. 2012. |