Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Čištění paralelních dat pro strojový překlad
Thesis title in Czech: Čištění paralelních dat pro strojový překlad
Thesis title in English: Cleaning of Parallel Texts for Machine Translation
Academic year of topic announcement: 2009/2010
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 09.11.2009
Date of assignment: 09.11.2009
Date and time of defence: 16.09.2010 00:00
Date of electronic submission:16.09.2010
Date of proceeded defence: 16.09.2010
Opponents: RNDr. Daniel Zeman, Ph.D.
 
 
 
Guidelines
Úkolem bakalářské práce je navrhnout a implementovat sérii filtrů pro čištění paralelních jazykových dat. Implementované filtry by měly být jak jazykově nezávislé, tak i určené pro konkrétní páry jazyků (např. angličtina-čeština nebo francouzština-čeština). Podobně by měly být jak nezávislé na typu textu, tak i specifické pro problematické jevy typické v dané doméně (např. texty z webových stránek, novinové články, filmové titulky). Nedílnou součástí práce je zvolit vhodnou metodu určení úspěšnosti filtrů a všechny implementované filtry na malém vzorku dat vyhodnotit.

Vhodným rozšířením práce je ověřit vliv filtrace na kvalitu výsledného strojového překladu. Pro tento účel je žádoucí využít maximum dostupných nástrojů.
References
Ondřej Bojar and Zdeněk Žabokrtský. CzEng 0.9: Large Parallel Treebank with Rich Annotation. Prague Bulletin of Mathematical Linguistics, 93, 2009. in print.
http://ufal.mff.cuni.cz/czeng/

Ondřej Bojar, David Mareček, Václav Novák, Martin Popel, Jan Ptáček, Jan Rouš, and Zdeněk Žabokrtský. English-Czech MT in 2008. In Proceedings of the Fourth Workshop on Statistical Machine Translation, Athens, Greece, March 2009. Association for Computational Linguistics.

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html