Čištění paralelních dat pro strojový překlad
Název práce v češtině: | Čištění paralelních dat pro strojový překlad |
---|---|
Název v anglickém jazyce: | Cleaning of Parallel Texts for Machine Translation |
Akademický rok vypsání: | 2009/2010 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 09.11.2009 |
Datum zadání: | 09.11.2009 |
Datum a čas obhajoby: | 16.09.2010 00:00 |
Datum odevzdání elektronické podoby: | 16.09.2010 |
Datum proběhlé obhajoby: | 16.09.2010 |
Oponenti: | doc. RNDr. Daniel Zeman, Ph.D. |
Zásady pro vypracování |
Úkolem bakalářské práce je navrhnout a implementovat sérii filtrů pro čištění paralelních jazykových dat. Implementované filtry by měly být jak jazykově nezávislé, tak i určené pro konkrétní páry jazyků (např. angličtina-čeština nebo francouzština-čeština). Podobně by měly být jak nezávislé na typu textu, tak i specifické pro problematické jevy typické v dané doméně (např. texty z webových stránek, novinové články, filmové titulky). Nedílnou součástí práce je zvolit vhodnou metodu určení úspěšnosti filtrů a všechny implementované filtry na malém vzorku dat vyhodnotit.
Vhodným rozšířením práce je ověřit vliv filtrace na kvalitu výsledného strojového překladu. Pro tento účel je žádoucí využít maximum dostupných nástrojů. |
Seznam odborné literatury |
Ondřej Bojar and Zdeněk Žabokrtský. CzEng 0.9: Large Parallel Treebank with Rich Annotation. Prague Bulletin of Mathematical Linguistics, 93, 2009. in print.
http://ufal.mff.cuni.cz/czeng/ Ondřej Bojar, David Mareček, Václav Novák, Martin Popel, Jan Ptáček, Jan Rouš, and Zdeněk Žabokrtský. English-Czech MT in 2008. In Proceedings of the Fourth Workshop on Statistical Machine Translation, Athens, Greece, March 2009. Association for Computational Linguistics. Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/ |