Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 393)
Detail práce
   Přihlásit přes CAS
Dolování paralelních vět z českých a anglických novin
Název práce v češtině: Dolování paralelních vět z českých a anglických novin
Název v anglickém jazyce: Mining parallel sentences from news feeds
Akademický rok vypsání: 2014/2015
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:
Zásady pro vypracování
Cílem ročníkového projektu a navazující bakalářské práce je navrhnout a implementovat systém, který bude sledovat denní tisk ve dvou jazycích (např. RSS kanály agregátoru Google News pro češtinu a angličtinu) a z článků vydaných v přibližně stejnou dobu bude automaticky extrahovat věty a jejich překlady.

Účinnost metody je třeba doložit srovnáním kvality strojového překladu bez automaticky dodaných dat a s nimi.
Seznam odborné literatury
Abdul Rauf S, Schwenk H . On the use of Comparable Corpora to improve SMT performance. European Chapter of the Association for Computational Linguistics (EACL) , Athens(Greece), p.16-23, 1-3 April 2009.
http://www.aclweb.org/anthology-new/E/E09/E09-1003.pdf

Bojar Ondřej. Čeština a strojový překlad. ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp. 2012.
http://ufal.mff.cuni.cz/books_bojar_2012.html

Philipp Koehn: Statistical Machine Translation. Cambridge University Press, ISBN-10: 0521874157, ISBN-13: 978-0521874151. 2009.
http://www.statmt.org/book/

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/
 
Univerzita Karlova | Informační systém UK