Strojová přeložitelnost textu
| Thesis title in Czech: | Strojová přeložitelnost textu |
|---|---|
| Thesis title in English: | Machine-Translatability of Texts |
| Academic year of topic announcement: | 2014/2015 |
| Thesis type: | Bachelor's thesis |
| Thesis language: | |
| Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
| Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
| Author: |
| Guidelines |
| Cílem ročníkového projektu a navazující bakalářské práce je implementovat nástroj pro kontrolu přeložitelnosti textu strojovým překladem. V tématu lze pokračovat i v rámci diplomové práce.
Nástroj může být realizován jako prostý filtr zpracovávající textové soubory (webová služba či plugin do libovolného editoru jsou též možné, z hlediska zadání práce však nadbytečné). Podstata práce spočívá v návrhu a implementaci metod kontroly. Pro danou vstupní větu systém musí odlišit snadno a obtížně přeložitelné úseky (slova či skupiny slov za sebou). Nabízí se několik variant, jak obtížně přeložitelné úseky najít. Výhodnější je jazykově nezávislá metoda, která za použití dostupného volně šiřitelného překladového systému (např. Moses) a trénovacích dat pro několik párů jazyků text cvičně přeloží a identifikuje společná problematická místa buď vlastní heuristikou nebo nějakou zavedenou mírou spolehlivosti. Uvažovat lze i o jazykově informované metodě, která provede tvaroslovný a syntaktický rozbor (opět pomocí dostupných nástrojů) a označí obtížně rozebíratelná nebo nejvíce víceznačná místa. Součástí bakalářské práce je i malé empirické vyhodnocení, zda úpravou nalezených obtížně přeložitelných úseků skutečně dosáhneme lepší kvality strojového překladu. |
| References |
| Bojar Ondřej. Čeština a strojový překlad. ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp. 2012.
http://ufal.mff.cuni.cz/books_bojar_2012.html Philipp Koehn: Statistical Machine Translation. Cambridge University Press, ISBN-10: 0521874157, ISBN-13: 978-0521874151. 2009. http://www.statmt.org/book/ Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/ Nicola Ueffing. Word Confidence Measures for Machine Translation. PhD Thesis, Aachen, Germany, March 2006. http://www-i6.informatik.rwth-aachen.de/publications/download/513/Ueffing--2006.pdf Zdeněk Žabokrtský, Ondřej Bojar: TectoMT, Developer's Guide. ÚFAL/CKL Technical Report TR-2008-38 http://ufal.mff.cuni.cz/tectomt/ |