Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Hierarchické překladové modely pro češtinu
Název práce v češtině: Hierarchické překladové modely pro češtinu
Název v anglickém jazyce: Hierarchical phrase-based models for Czech
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:
Zásady pro vypracování
Frázové modely strojového překladu předpokládají, že větu ve vstupním jazyce lze rozlámat na souvislé úseky (tzv. fráze) a přeložit jednotlivé fráze víceméně nezávisle. Hierarchické překladové modely (David Chiang, 2005) jako základní jednotku uvažují i nesouvislé fráze, tj. fráze s dírou do které se vkládá jiné fráze. Jako významná motivace pro nesouvislé fráze slouží například francouzská negace: 'ne ... pas'.

Cílem diplomové práce je prostudovat, zda pro překlad mezi angličtinou a češtinou (tam i zpět) představují hierarchické modely významnou výhodu, a experimentálně srovnat jejich kvalitu s frázovými modely. Je zřejmé, že frázové modely jsou schopny zvládnout jakkoli složitou jazykovou konstrukci, pokud nebudeme nijak omezovat maximální délku fráze a pokud v trénovacích datech danou konstrukci uvidíme. Proto je pro srovnání hierarchických a frázových modelů nutno uvažovat celou škálu limitů maximální délky frází a rovněž škálu velikostí testovacích a trénovacích dat. Zajímavé je též zjistit, zda pro dvojici čeština-angličtina existují typické konstrukce, které hierarchické modely při daném limitu délky fráze zachytí lépe, případně zda je možné tyto konstrukce předem identifikovat a zpracovávat odděleně od běžného frázového modelu.

Jako podkladová data je možné použít buď paralelní texty (viz CzEng) s automatickým zarovnáním po slovech i menší množinu vět, které byly zarovnány ručně (viz. Mareček, Žabokrtský, Novák, 2008).
Seznam odborné literatury
Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton. Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.
http://ufal.mff.cuni.cz/pbml/91/art-li.pdf

Vamshi Ambati, Alon Lavie. Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244.
http://www.mt-archive.info/AMTA-2008-Ambati.pdf

David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation. Proc. of ACL. 2005.
Ondřej Bojar: English-to-Czech Factored Machine Translation. Proceedings of the Second Workshop on Statistical Machine Translation, ACL. 2007.
Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008. ELRA.
David Mareček, Zdeněk Žabokrtský, Václav Novak: Automatic Alignment of Czech and English Deep Syntactic Dependency Trees. Proc. of EAMT. 2008.
 
Univerzita Karlova | Informační systém UK