Dolování paralelních vět z českých a anglických novin
Thesis title in Czech: | Dolování paralelních vět z českých a anglických novin |
---|---|
Thesis title in English: | Mining parallel sentences from news feeds |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | Bachelor's thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: |
Guidelines |
Cílem ročníkového projektu a navazující bakalářské práce je navrhnout a implementovat systém, který bude sledovat denní tisk ve dvou jazycích (např. RSS kanály agregátoru Google News pro češtinu a angličtinu) a z článků vydaných v přibližně stejnou dobu bude automaticky extrahovat věty a jejich překlady.
Účinnost metody je třeba doložit srovnáním kvality strojového překladu bez automaticky dodaných dat a s nimi. |
References |
Abdul Rauf S, Schwenk H . On the use of Comparable Corpora to improve SMT performance. European Chapter of the Association for Computational Linguistics (EACL) , Athens(Greece), p.16-23, 1-3 April 2009.
http://www.aclweb.org/anthology-new/E/E09/E09-1003.pdf Bojar Ondřej. Čeština a strojový překlad. ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp. 2012. http://ufal.mff.cuni.cz/books_bojar_2012.html Philipp Koehn: Statistical Machine Translation. Cambridge University Press, ISBN-10: 0521874157, ISBN-13: 978-0521874151. 2009. http://www.statmt.org/book/ Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/ |