Frázové párování v paralelních větách
Název práce v češtině: | Frázové párování v paralelních větách |
---|---|
Název v anglickém jazyce: | Phrase alignment in parallel sentences |
Klíčová slova: | statistický strojový překlad, slovní párování, frázové párování |
Klíčová slova anglicky: | statistical machine translation, word alignment, phrase alignment |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Paralelní větou rozumíme větu v nějakém (zdrojovém) jazyce a její překlad do jiného (cílového) jazyka. Slovní párování (word alignment) v paralelní větě potom znázorňuje, jak slova ve zdrojovém jazyce korespondují se slovy v cílovém jazyce. Slovní párování se používá snad ve všech metodách statistického strojového překladu (Statistical Machine Translation — SMT). Ve většině případů však nejde o slovní párování přímo, ale je to prostředek pro získání složitějších struktur: např. frázových párů pro konstrukci překladových tabulek ve frázovém statistickém strojovém překladu (Phrase-Based SMT), nebo v přístupech založených na příkladech (Example-Based SMT). Slovní párování skrývá různé problémy, zejména jde o to, jak mají být párovaná slova, která nemají v druhém jazyce svůj ekvivalent (např. členy v anglicko-české paralelní větě) nebo víceslovná spojení, která lze párovat pouze jako celky a nikoliv po slovech. Zdá se, že vhodnější než párování slovní by bylo párování frázové. Tato úloha je ovšem NP-těžká [3]. Řešením je omezení prostoru hypotéz a to buď buď dekompozicí úlohy na dílčí kroky a nebo prořezáváním. |
Seznam odborné literatury |
Jörg Tiedemann. Bitext alignment. Synthesis lectures on human language technologies Morgan & Claypool Publishers, 2011, ISBN 978-1-60845-510-2
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151. John DeNero, Dan Klein. The complexity of phrase alignment problems. In the Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers. Pages 25-28. 2008. |