Automatická oprava chyb výstupů překladače CUBBITT
Thesis title in Czech: | Automatická oprava chyb výstupů překladače CUBBITT |
---|---|
Thesis title in English: | Automatic correction of errors in the CUBBITT translator outputs |
Key words: | post-processing strojového překladu|čísla s jednotkami|pravidlový systém|překlad vlastních jmen|balíček v jazyce Python |
English key words: | machine translation post-processing|numbers with units|heuristic system|translation of proper names|Python package |
Academic year of topic announcement: | 2020/2021 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | Mgr. Martin Popel, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 29.03.2021 |
Date of assignment: | 31.03.2021 |
Confirmed by Study dept. on: | 12.04.2021 |
Date and time of defence: | 10.09.2021 09:00 |
Date of electronic submission: | 22.07.2021 |
Date of submission of printed version: | 22.07.2021 |
Date of proceeded defence: | 10.09.2021 |
Opponents: | Mgr. Jonáš Vidra |
Guidelines |
Neuronový strojový překladač CUBBITT dosahuje velmi dobrých výsledků při překladu mezi angličtinou a češtinou. Přesto existuje několik oblastí, kde systematicky dochází k chybám. Např. „Vážila o 20 kilo víc.“ se přeloží do angličtiny jako „She weighed 20 pounds more.“, tedy dojde k záměně kilogramů za libry, ale číslovka zůstane nezměněna. Věta „I spent $315,000 on a car.“ se přeloží do češtiny jako „Utratil jsem 315 tisíc za auto.“, tedy dojde k vypuštění měny (dolar) a tím možné změně významu. Další zaznamenané chyby jsou použití nesprávného oddělovače tisíců a desetinných čísel či překlad čísel s devíti a více číslicemi (např. 10101010 se do češtiny přeloží jako 1010101010).
Cílem bakalářské práce je provést rozbor takovýchto překladových chyb na velkém vzorku přeložených textů a pokusit se nalézt další typy chyby, které by šlo spolehlivě automaticky detekovat a opravit. Výsledkem by měl být nástroj pro opravu anglicko-českých a česko-anglických překladů, který půjde spustit z příkazové řádky i použít jako webovou službu. V konfiguraci by mělo jít nastavit, zda jednotky zachovávat, nebo přepočítávat (např. míle na kilometry). Nástroj by měl vhodnou heuristikou zvolit odpovídající překlad přibližných údajů, např. „about a mile“ není vhodné překládat jako „asi 1.609 kilometru“. I pokud uživatel preferuje zachovat jednotky (nepřepočítávat čísla), je otázka, zda neučinit výjimku tam, kde CUBBITT již nyní vhodně přeloží např. „almost three-foot stick“ jako „téměř metrový klacek“. Pro spolehlivější analýzu některých vět bude zřejmě vhodné použít externí nástroj pro slovní zarovnání (word alignment). |
References |
M. Popel, M. Tomkova, J. Tomek et al. Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals. Nat Commun 11, 4381 (2020). https://doi.org/10.1038/s41467-020-18073-9
T. Kocmi, M. Popel & O. Bojar. Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords. In: arXiv:2007.03006 (2020). R. Sennrich, B. Haddow & A. Birch. Neural machine translation of rare words with subword units. In Proceedings of ACL 2016, pages 1715–1725, Berlin, Germany, August 2016b. ACL. http://www.aclweb.org/anthology/P16-1162. |