Automatická oprava chyb výstupů překladače CUBBITT
Název práce v češtině: | Automatická oprava chyb výstupů překladače CUBBITT |
---|---|
Název v anglickém jazyce: | Automatic correction of errors in the CUBBITT translator outputs |
Klíčová slova: | post-processing strojového překladu|čísla s jednotkami|pravidlový systém|překlad vlastních jmen|balíček v jazyce Python |
Klíčová slova anglicky: | machine translation post-processing|numbers with units|heuristic system|translation of proper names|Python package |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Martin Popel, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 29.03.2021 |
Datum zadání: | 31.03.2021 |
Datum potvrzení stud. oddělením: | 12.04.2021 |
Datum a čas obhajoby: | 10.09.2021 09:00 |
Datum odevzdání elektronické podoby: | 22.07.2021 |
Datum odevzdání tištěné podoby: | 22.07.2021 |
Datum proběhlé obhajoby: | 10.09.2021 |
Oponenti: | Mgr. Jonáš Vidra |
Zásady pro vypracování |
Neuronový strojový překladač CUBBITT dosahuje velmi dobrých výsledků při překladu mezi angličtinou a češtinou. Přesto existuje několik oblastí, kde systematicky dochází k chybám. Např. „Vážila o 20 kilo víc.“ se přeloží do angličtiny jako „She weighed 20 pounds more.“, tedy dojde k záměně kilogramů za libry, ale číslovka zůstane nezměněna. Věta „I spent $315,000 on a car.“ se přeloží do češtiny jako „Utratil jsem 315 tisíc za auto.“, tedy dojde k vypuštění měny (dolar) a tím možné změně významu. Další zaznamenané chyby jsou použití nesprávného oddělovače tisíců a desetinných čísel či překlad čísel s devíti a více číslicemi (např. 10101010 se do češtiny přeloží jako 1010101010).
Cílem bakalářské práce je provést rozbor takovýchto překladových chyb na velkém vzorku přeložených textů a pokusit se nalézt další typy chyby, které by šlo spolehlivě automaticky detekovat a opravit. Výsledkem by měl být nástroj pro opravu anglicko-českých a česko-anglických překladů, který půjde spustit z příkazové řádky i použít jako webovou službu. V konfiguraci by mělo jít nastavit, zda jednotky zachovávat, nebo přepočítávat (např. míle na kilometry). Nástroj by měl vhodnou heuristikou zvolit odpovídající překlad přibližných údajů, např. „about a mile“ není vhodné překládat jako „asi 1.609 kilometru“. I pokud uživatel preferuje zachovat jednotky (nepřepočítávat čísla), je otázka, zda neučinit výjimku tam, kde CUBBITT již nyní vhodně přeloží např. „almost three-foot stick“ jako „téměř metrový klacek“. Pro spolehlivější analýzu některých vět bude zřejmě vhodné použít externí nástroj pro slovní zarovnání (word alignment). |
Seznam odborné literatury |
M. Popel, M. Tomkova, J. Tomek et al. Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals. Nat Commun 11, 4381 (2020). https://doi.org/10.1038/s41467-020-18073-9
T. Kocmi, M. Popel & O. Bojar. Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords. In: arXiv:2007.03006 (2020). R. Sennrich, B. Haddow & A. Birch. Neural machine translation of rare words with subword units. In Proceedings of ACL 2016, pages 1715–1725, Berlin, Germany, August 2016b. ACL. http://www.aclweb.org/anthology/P16-1162. |