Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatická oprava chyb výstupů překladače CUBBITT
Thesis title in Czech: Automatická oprava chyb výstupů překladače CUBBITT
Thesis title in English: Automatic correction of errors in the CUBBITT translator outputs
Key words: post-processing strojového překladu|čísla s jednotkami|pravidlový systém|překlad vlastních jmen|balíček v jazyce Python
English key words: machine translation post-processing|numbers with units|heuristic system|translation of proper names|Python package
Academic year of topic announcement: 2020/2021
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Martin Popel, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 29.03.2021
Date of assignment: 31.03.2021
Confirmed by Study dept. on: 12.04.2021
Date and time of defence: 10.09.2021 09:00
Date of electronic submission:22.07.2021
Date of submission of printed version:22.07.2021
Date of proceeded defence: 10.09.2021
Opponents: Mgr. Jonáš Vidra
 
 
 
Guidelines
Neuronový strojový překladač CUBBITT dosahuje velmi dobrých výsledků při překladu mezi angličtinou a češtinou. Přesto existuje několik oblastí, kde systematicky dochází k chybám. Např. „Vážila o 20 kilo víc.“ se přeloží do angličtiny jako „She weighed 20 pounds more.“, tedy dojde k záměně kilogramů za libry, ale číslovka zůstane nezměněna. Věta „I spent $315,000 on a car.“ se přeloží do češtiny jako „Utratil jsem 315 tisíc za auto.“, tedy dojde k vypuštění měny (dolar) a tím možné změně významu. Další zaznamenané chyby jsou použití nesprávného oddělovače tisíců a desetinných čísel či překlad čísel s devíti a více číslicemi (např. 10101010 se do češtiny přeloží jako 1010101010).
Cílem bakalářské práce je provést rozbor takovýchto překladových chyb na velkém vzorku přeložených textů a pokusit se nalézt další typy chyby, které by šlo spolehlivě automaticky detekovat a opravit. Výsledkem by měl být nástroj pro opravu anglicko-českých a česko-anglických překladů, který půjde spustit z příkazové řádky i použít jako webovou službu. V konfiguraci by mělo jít nastavit, zda jednotky zachovávat, nebo přepočítávat (např. míle na kilometry). Nástroj by měl vhodnou heuristikou zvolit odpovídající překlad přibližných údajů, např. „about a mile“ není vhodné překládat jako „asi 1.609 kilometru“. I pokud uživatel preferuje zachovat jednotky (nepřepočítávat čísla), je otázka, zda neučinit výjimku tam, kde CUBBITT již nyní vhodně přeloží např. „almost three-foot stick“ jako „téměř metrový klacek“. Pro spolehlivější analýzu některých vět bude zřejmě vhodné použít externí nástroj pro slovní zarovnání (word alignment).
References
M. Popel, M. Tomkova, J. Tomek et al. Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals. Nat Commun 11, 4381 (2020). https://doi.org/10.1038/s41467-020-18073-9

T. Kocmi, M. Popel & O. Bojar. Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords. In: arXiv:2007.03006 (2020).

R. Sennrich, B. Haddow & A. Birch. Neural machine translation of rare words with subword units. In Proceedings of ACL 2016, pages 1715–1725, Berlin, Germany, August 2016b. ACL. http://www.aclweb.org/anthology/P16-1162.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html