Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 392)
Detail práce
   Přihlásit přes CAS
Automatic Error Correction of Machine Translation Output
Název práce v češtině: Automatická korektura chyb ve výstupu strojového překladu
Název v anglickém jazyce: Automatic Error Correction of Machine Translation Output
Klíčová slova: automatická post-editace, strojový překlad, strojové učení s dohledem, zpracování přirozeného jazyka, Treex
Klíčová slova anglicky: automatic post-editing, machine translation, supervised machine learning, natural language processing, Treex
Akademický rok vypsání: 2015/2016
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 15.07.2015
Datum zadání: 08.04.2016
Datum potvrzení stud. oddělením: 21.04.2016
Datum a čas obhajoby: 08.09.2016 09:00
Datum odevzdání elektronické podoby:28.07.2016
Datum odevzdání tištěné podoby:28.07.2016
Datum proběhlé obhajoby: 08.09.2016
Oponenti: RNDr. David Mareček, Ph.D.
 
 
 
Zásady pro vypracování
The aim of the thesis is to propose, implement and evaluate methods for correcting frequent errors in machine translation output.

The designed methods need to be as language independent as possible. They will thus be primarily based on machine learning and rely on the availability of standard parallel corpora (source sentences and reference translations), monolingual data (target-side texts) as well as post-editing logs (source, MT output and editing operations of a human translator) or other possible sources.

The methods will be evaluated on standard datasets (e.g. WMT test sets) for translation from English into Czech and at least one other language (e.g. German, Polish, Romanian). The English-to-Czech direction allows for a direct comparison with Depfix, an existing tool where the corrections were manually encoded as rules.
Seznam odborné literatury
Rosa Rudolf: Depfix, a Tool for Automatic Rule-based Post-editing of SMT. In: The Prague Bulletin of Mathematical Linguistics, Vol. 102, Copyright © Univerzita Karlova v Praze, ISSN 0032-6585, pp. 47-56, Oct 2014.

Bojar Ondřej, Buck Christian, Callison-Burch Chris, Federmann Christian, Haddow Barry, Koehn Philipp, Monz Christof, Post Matt, Soricut Radu, Specia Lucia: Findings of the 2013 Workshop on Statistical Machine Translation. In: Proceedings of the Eight Workshop on Statistical Machine Translation, Copyright © Association for Computational Linguistics, Sofija, Bulgaria, ISBN 978-1-937284-57-2, pp. 1-44, 2013.

Autodesk Post-Editing Data. http://www.islrn.org/resources/290-859-676-529-5/

M. Simard, C. Goutte and P. Isabelle (2007) Statistical phrase-based post-editing. Rochester, New York, pp. 508–515.

H. Béchara, Y. Ma and J. van Genabith (2011) Statistical post-editing for a statistical mt system. MT Summit XIII, pp. 308–315.
 
Univerzita Karlova | Informační systém UK