Frázové párování v paralelních větách
Thesis title in Czech: | Frázové párování v paralelních větách |
---|---|
Thesis title in English: | Phrase alignment in parallel sentences |
Key words: | statistický strojový překlad, slovní párování, frázové párování |
English key words: | statistical machine translation, word alignment, phrase alignment |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: |
Guidelines |
Paralelní větou rozumíme větu v nějakém (zdrojovém) jazyce a její překlad do jiného (cílového) jazyka. Slovní párování (word alignment) v paralelní větě potom znázorňuje, jak slova ve zdrojovém jazyce korespondují se slovy v cílovém jazyce. Slovní párování se používá snad ve všech metodách statistického strojového překladu (Statistical Machine Translation — SMT). Ve většině případů však nejde o slovní párování přímo, ale je to prostředek pro získání složitějších struktur: např. frázových párů pro konstrukci překladových tabulek ve frázovém statistickém strojovém překladu (Phrase-Based SMT), nebo v přístupech založených na příkladech (Example-Based SMT). Slovní párování skrývá různé problémy, zejména jde o to, jak mají být párovaná slova, která nemají v druhém jazyce svůj ekvivalent (např. členy v anglicko-české paralelní větě) nebo víceslovná spojení, která lze párovat pouze jako celky a nikoliv po slovech. Zdá se, že vhodnější než párování slovní by bylo párování frázové. Tato úloha je ovšem NP-těžká [3]. Řešením je omezení prostoru hypotéz a to buď buď dekompozicí úlohy na dílčí kroky a nebo prořezáváním. |
References |
Jörg Tiedemann. Bitext alignment. Synthesis lectures on human language technologies Morgan & Claypool Publishers, 2011, ISBN 978-1-60845-510-2
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151. John DeNero, Dan Klein. The complexity of phrase alignment problems. In the Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers. Pages 25-28. 2008. |