Dolování paralelních vět z českých a anglických novin
| Název práce v češtině: | Dolování paralelních vět z českých a anglických novin |
|---|---|
| Název v anglickém jazyce: | Mining parallel sentences from news feeds |
| Akademický rok vypsání: | 2014/2015 |
| Typ práce: | bakalářská práce |
| Jazyk práce: | |
| Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
| Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
| Řešitel: |
| Zásady pro vypracování |
| Cílem ročníkového projektu a navazující bakalářské práce je navrhnout a implementovat systém, který bude sledovat denní tisk ve dvou jazycích (např. RSS kanály agregátoru Google News pro češtinu a angličtinu) a z článků vydaných v přibližně stejnou dobu bude automaticky extrahovat věty a jejich překlady.
Účinnost metody je třeba doložit srovnáním kvality strojového překladu bez automaticky dodaných dat a s nimi. |
| Seznam odborné literatury |
| Abdul Rauf S, Schwenk H . On the use of Comparable Corpora to improve SMT performance. European Chapter of the Association for Computational Linguistics (EACL) , Athens(Greece), p.16-23, 1-3 April 2009.
http://www.aclweb.org/anthology-new/E/E09/E09-1003.pdf Bojar Ondřej. Čeština a strojový překlad. ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp. 2012. http://ufal.mff.cuni.cz/books_bojar_2012.html Philipp Koehn: Statistical Machine Translation. Cambridge University Press, ISBN-10: 0521874157, ISBN-13: 978-0521874151. 2009. http://www.statmt.org/book/ Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/ |