Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Obří data v česko-anglickém strojovém překladu
Název práce v češtině: Obří data v česko-anglickém strojovém překladu
Název v anglickém jazyce: Huge data in Czech-English Machine Translation
Akademický rok vypsání: 2012/2013
Typ práce: ročníková práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:
Zásady pro vypracování
Úkolem ročníkového projektu a navazující bakalářské práce je zlepšit kvalitu česko-anglického strojového překladu (oba směry) použitím všech dostupných dat (existující paralelní korpusy jako CzEng, existující jednojazyčné korpusy jako anglický gigaword a české webové i newebové korpusy).

Dle zájmu se lze zaměřit na kteroukoli z těchto oblastí: poloautomatické čištění dat bez ohledu na typ a téma překládaných textů, automatickou identifikaci "tématu textu" a použití specifických trénovacích dat, nebo využití jednojazyčných trénovacích dat a předešlé verze překladového systému k vyrobení větších paralelních dat.

Téma je vhodné i pro navazující diplomovou a příp. doktorskou práci.
Seznam odborné literatury
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/

Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008. ELRA.
http://ufal.mff.cuni.cz/czeng/

Ondřej Bojar. Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008. http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf

a řada dalších publikací s ohledem na zvolenou oblast.
 
Univerzita Karlova | Informační systém UK