Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 341)
Detail práce
   Přihlásit přes CAS
Čištění paralelních dat pro strojový překlad
Název práce v češtině: Čištění paralelních dat pro strojový překlad
Název v anglickém jazyce: Cleaning of Parallel Texts for Machine Translation
Akademický rok vypsání: 2009/2010
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 09.11.2009
Datum zadání: 09.11.2009
Datum a čas obhajoby: 16.09.2010 00:00
Datum odevzdání elektronické podoby:16.09.2010
Datum proběhlé obhajoby: 16.09.2010
Oponenti: RNDr. Daniel Zeman, Ph.D.
 
 
 
Zásady pro vypracování
Úkolem bakalářské práce je navrhnout a implementovat sérii filtrů pro čištění paralelních jazykových dat. Implementované filtry by měly být jak jazykově nezávislé, tak i určené pro konkrétní páry jazyků (např. angličtina-čeština nebo francouzština-čeština). Podobně by měly být jak nezávislé na typu textu, tak i specifické pro problematické jevy typické v dané doméně (např. texty z webových stránek, novinové články, filmové titulky). Nedílnou součástí práce je zvolit vhodnou metodu určení úspěšnosti filtrů a všechny implementované filtry na malém vzorku dat vyhodnotit.

Vhodným rozšířením práce je ověřit vliv filtrace na kvalitu výsledného strojového překladu. Pro tento účel je žádoucí využít maximum dostupných nástrojů.
Seznam odborné literatury
Ondřej Bojar and Zdeněk Žabokrtský. CzEng 0.9: Large Parallel Treebank with Rich Annotation. Prague Bulletin of Mathematical Linguistics, 93, 2009. in print.
http://ufal.mff.cuni.cz/czeng/

Ondřej Bojar, David Mareček, Václav Novák, Martin Popel, Jan Ptáček, Jan Rouš, and Zdeněk Žabokrtský. English-Czech MT in 2008. In Proceedings of the Fourth Workshop on Statistical Machine Translation, Athens, Greece, March 2009. Association for Computational Linguistics.

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/
 
Univerzita Karlova | Informační systém UK