Čištění paralelních dat pro strojový překlad
| Thesis title in Czech: | Čištění paralelních dat pro strojový překlad |
|---|---|
| Thesis title in English: | Cleaning of Parallel Texts for Machine Translation |
| Academic year of topic announcement: | 2009/2010 |
| Thesis type: | Bachelor's thesis |
| Thesis language: | čeština |
| Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
| Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
| Author: | hidden - assigned and confirmed by the Study Dept. |
| Date of registration: | 09.11.2009 |
| Date of assignment: | 09.11.2009 |
| Date and time of defence: | 16.09.2010 00:00 |
| Date of electronic submission: | 16.09.2010 |
| Date of proceeded defence: | 16.09.2010 |
| Opponents: | doc. RNDr. Daniel Zeman, Ph.D. |
| Guidelines |
| Úkolem bakalářské práce je navrhnout a implementovat sérii filtrů pro čištění paralelních jazykových dat. Implementované filtry by měly být jak jazykově nezávislé, tak i určené pro konkrétní páry jazyků (např. angličtina-čeština nebo francouzština-čeština). Podobně by měly být jak nezávislé na typu textu, tak i specifické pro problematické jevy typické v dané doméně (např. texty z webových stránek, novinové články, filmové titulky). Nedílnou součástí práce je zvolit vhodnou metodu určení úspěšnosti filtrů a všechny implementované filtry na malém vzorku dat vyhodnotit.
Vhodným rozšířením práce je ověřit vliv filtrace na kvalitu výsledného strojového překladu. Pro tento účel je žádoucí využít maximum dostupných nástrojů. |
| References |
| Ondřej Bojar and Zdeněk Žabokrtský. CzEng 0.9: Large Parallel Treebank with Rich Annotation. Prague Bulletin of Mathematical Linguistics, 93, 2009. in print.
http://ufal.mff.cuni.cz/czeng/ Ondřej Bojar, David Mareček, Václav Novák, Martin Popel, Jan Ptáček, Jan Rouš, and Zdeněk Žabokrtský. English-Czech MT in 2008. In Proceedings of the Fourth Workshop on Statistical Machine Translation, Athens, Greece, March 2009. Association for Computational Linguistics. Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/ |
- assigned and confirmed by the Study Dept.