Čištění paralelních dat pro strojový překlad
Thesis title in Czech: | Čištění paralelních dat pro strojový překlad |
---|---|
Thesis title in English: | Cleaning of Parallel Texts for Machine Translation |
Academic year of topic announcement: | 2009/2010 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 09.11.2009 |
Date of assignment: | 09.11.2009 |
Date and time of defence: | 16.09.2010 00:00 |
Date of electronic submission: | 16.09.2010 |
Date of proceeded defence: | 16.09.2010 |
Opponents: | RNDr. Daniel Zeman, Ph.D. |
Guidelines |
Úkolem bakalářské práce je navrhnout a implementovat sérii filtrů pro čištění paralelních jazykových dat. Implementované filtry by měly být jak jazykově nezávislé, tak i určené pro konkrétní páry jazyků (např. angličtina-čeština nebo francouzština-čeština). Podobně by měly být jak nezávislé na typu textu, tak i specifické pro problematické jevy typické v dané doméně (např. texty z webových stránek, novinové články, filmové titulky). Nedílnou součástí práce je zvolit vhodnou metodu určení úspěšnosti filtrů a všechny implementované filtry na malém vzorku dat vyhodnotit.
Vhodným rozšířením práce je ověřit vliv filtrace na kvalitu výsledného strojového překladu. Pro tento účel je žádoucí využít maximum dostupných nástrojů. |
References |
Ondřej Bojar and Zdeněk Žabokrtský. CzEng 0.9: Large Parallel Treebank with Rich Annotation. Prague Bulletin of Mathematical Linguistics, 93, 2009. in print.
http://ufal.mff.cuni.cz/czeng/ Ondřej Bojar, David Mareček, Václav Novák, Martin Popel, Jan Ptáček, Jan Rouš, and Zdeněk Žabokrtský. English-Czech MT in 2008. In Proceedings of the Fourth Workshop on Statistical Machine Translation, Athens, Greece, March 2009. Association for Computational Linguistics. Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/ |