Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Strojový překlad do češtiny přes lematický text
Thesis title in Czech: Strojový překlad do češtiny přes lematický text
Thesis title in English: Machine Translation to Czech via Lemmatized Text
Academic year of topic announcement: 2009/2010
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 18.11.2009
Date of assignment: 18.11.2009
Date and time of defence: 21.06.2010 00:00
Date of electronic submission:27.05.2010
Date of submission of printed version:27.05.2010
Date of proceeded defence: 21.06.2010
Opponents: RNDr. Daniel Zeman, Ph.D.
 
 
 
Guidelines
Cílem bakalářské práce je experimentálně ověřit, zda je možné zlepšit kvalitu frázového statistického strojového překladu z angličtiny do češtiny použitím tzv. lematického textu, tj. zjednodušené češtiny, kde slova nejsou nijak morfologicky tvarována. Výhodou tohoto postupu je výrazná redukce tvaroslovné bohatosti češtiny, a tedy menší nároky na objem trénovacích dat, cenou pak samozřejmě ztráta informace.

Práce navrhne několik možných variant postupu při překladu a s použitím dostupných komponent některé z postupů vyhodnotí jak pomocí automatické evaluace kvality překladu, tak i ručním porovnáním malého vzorku výstupů. Je žádoucí, aby se práce v maximální možné míře opírala o existující nástroje, zejm. volně šiřitelné systémy strojového překladu (např. Moses) a nástroje pro zpracování češtiny.
References
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/

Zdeněk Žabokrtský, Ondřej Bojar: TectoMT, Developer's Guide. ÚFAL/CKL Technical Report TR-2008-38
http://ufal.mff.cuni.cz/tectomt/

Ondřej Bojar. Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008. (zejm. kap. 4)
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html