Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Využití bohaté anotace pro frázový strojový překlad
Thesis title in Czech: Využití bohaté anotace pro frázový strojový překlad
Thesis title in English: Exploiting Rich Annotation in Phrase-Based Machine Translation
Academic year of topic announcement: 2008/2009
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 09.11.2009
Date of assignment: 09.11.2009
Date and time of defence: 22.06.2010 00:00
Date of electronic submission:22.06.2010
Date of proceeded defence: 22.06.2010
Opponents: RNDr. David Mareček, Ph.D.
 
 
 
Guidelines
Úkolem bakalářské práce je implementovat nástroj pro výběr a sběr statistických údajů z bohatě anotovaného paralelního korpusu pro účely frázového strojového překladu. Vzhledem k příliš rozsáhlému prostoru možností, které údaje z korpusu extrahovat a jak přesně je v překladu využít, je hlavním cílem navrhnout stručný a výstižný formát konfiguračního souboru. To uživateli systému umožní pohodlně experimentovat s mnoha konfiguracemi, příp. i strojově generovanými, a ověřovat jejich užitečnost v samotném překladu.

Nedílnou součástí práce je provést malou sérii experimentů, na níž se ověří praktická použitelnost implementovaného nástroje a současně naznačí první výsledky týkající se užitečnosti bohaté anotace pro frázový strojový překlad i zvýšení výpočetních nároků, které jsou s tím spojeny.
References
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/

Ondřej Bojar. Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008, a další citovaná literatura.

Alexandra Birch, Miles Osborne, and Philipp Koehn. 2007. CCG Supertags in Factored Statistical Machine Translation. In Proceedings of the Second Workshop on Statistical Machine Translation, pages 9?16, Prague, Czech Republic.

Eleftherios Avramidis, Philipp Koehn. 2008. Enriching morphologically poor languages for statistical machine translation. In Proceedings of ACL-08: HLT, pages 763?770, Columbus, Ohio.

Johnson, J.H., Martin, J., Foster, G., Kuhn, R.: Improving Translation Quality by Discarding Most of the Phrasetable. Proc. of EMNLP. 2007.

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html