Hierarchické překladové modely pro češtinu
Název práce v češtině: | Hierarchické překladové modely pro češtinu |
---|---|
Název v anglickém jazyce: | Hierarchical phrase-based models for Czech |
Akademický rok vypsání: | 2011/2012 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Frázové modely strojového překladu předpokládají, že větu ve vstupním jazyce lze rozlámat na souvislé úseky (tzv. fráze) a přeložit jednotlivé fráze víceméně nezávisle. Hierarchické překladové modely (David Chiang, 2005) jako základní jednotku uvažují i nesouvislé fráze, tj. fráze s dírou do které se vkládá jiné fráze. Jako významná motivace pro nesouvislé fráze slouží například francouzská negace: 'ne ... pas'.
Cílem diplomové práce je prostudovat, zda pro překlad mezi angličtinou a češtinou (tam i zpět) představují hierarchické modely významnou výhodu, a experimentálně srovnat jejich kvalitu s frázovými modely. Je zřejmé, že frázové modely jsou schopny zvládnout jakkoli složitou jazykovou konstrukci, pokud nebudeme nijak omezovat maximální délku fráze a pokud v trénovacích datech danou konstrukci uvidíme. Proto je pro srovnání hierarchických a frázových modelů nutno uvažovat celou škálu limitů maximální délky frází a rovněž škálu velikostí testovacích a trénovacích dat. Zajímavé je též zjistit, zda pro dvojici čeština-angličtina existují typické konstrukce, které hierarchické modely při daném limitu délky fráze zachytí lépe, případně zda je možné tyto konstrukce předem identifikovat a zpracovávat odděleně od běžného frázového modelu. Jako podkladová data je možné použít buď paralelní texty (viz CzEng) s automatickým zarovnáním po slovech i menší množinu vět, které byly zarovnány ručně (viz. Mareček, Žabokrtský, Novák, 2008). |
Seznam odborné literatury |
Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton. Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.
http://ufal.mff.cuni.cz/pbml/91/art-li.pdf Vamshi Ambati, Alon Lavie. Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244. http://www.mt-archive.info/AMTA-2008-Ambati.pdf David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation. Proc. of ACL. 2005. Ondřej Bojar: English-to-Czech Factored Machine Translation. Proceedings of the Second Workshop on Statistical Machine Translation, ACL. 2007. Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008. ELRA. David Mareček, Zdeněk Žabokrtský, Václav Novak: Automatic Alignment of Czech and English Deep Syntactic Dependency Trees. Proc. of EAMT. 2008. |