Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Hierarchické překladové modely pro češtinu
Thesis title in Czech: Hierarchické překladové modely pro češtinu
Thesis title in English: Hierarchical phrase-based models for Czech
Academic year of topic announcement: 2011/2012
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author:
Guidelines
Frázové modely strojového překladu předpokládají, že větu ve vstupním jazyce lze rozlámat na souvislé úseky (tzv. fráze) a přeložit jednotlivé fráze víceméně nezávisle. Hierarchické překladové modely (David Chiang, 2005) jako základní jednotku uvažují i nesouvislé fráze, tj. fráze s dírou do které se vkládá jiné fráze. Jako významná motivace pro nesouvislé fráze slouží například francouzská negace: 'ne ... pas'.

Cílem diplomové práce je prostudovat, zda pro překlad mezi angličtinou a češtinou (tam i zpět) představují hierarchické modely významnou výhodu, a experimentálně srovnat jejich kvalitu s frázovými modely. Je zřejmé, že frázové modely jsou schopny zvládnout jakkoli složitou jazykovou konstrukci, pokud nebudeme nijak omezovat maximální délku fráze a pokud v trénovacích datech danou konstrukci uvidíme. Proto je pro srovnání hierarchických a frázových modelů nutno uvažovat celou škálu limitů maximální délky frází a rovněž škálu velikostí testovacích a trénovacích dat. Zajímavé je též zjistit, zda pro dvojici čeština-angličtina existují typické konstrukce, které hierarchické modely při daném limitu délky fráze zachytí lépe, případně zda je možné tyto konstrukce předem identifikovat a zpracovávat odděleně od běžného frázového modelu.

Jako podkladová data je možné použít buď paralelní texty (viz CzEng) s automatickým zarovnáním po slovech i menší množinu vět, které byly zarovnány ručně (viz. Mareček, Žabokrtský, Novák, 2008).
References
Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton. Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.
http://ufal.mff.cuni.cz/pbml/91/art-li.pdf

Vamshi Ambati, Alon Lavie. Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244.
http://www.mt-archive.info/AMTA-2008-Ambati.pdf

David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation. Proc. of ACL. 2005.
Ondřej Bojar: English-to-Czech Factored Machine Translation. Proceedings of the Second Workshop on Statistical Machine Translation, ACL. 2007.
Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008. ELRA.
David Mareček, Zdeněk Žabokrtský, Václav Novak: Automatic Alignment of Czech and English Deep Syntactic Dependency Trees. Proc. of EAMT. 2008.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html