Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatická oprava chyb výstupů překladače CUBBITT
Název práce v češtině: Automatická oprava chyb výstupů překladače CUBBITT
Název v anglickém jazyce: Automatic correction of errors in the CUBBITT translator outputs
Klíčová slova: post-processing strojového překladu|čísla s jednotkami|pravidlový systém|překlad vlastních jmen|balíček v jazyce Python
Klíčová slova anglicky: machine translation post-processing|numbers with units|heuristic system|translation of proper names|Python package
Akademický rok vypsání: 2020/2021
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Martin Popel, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 29.03.2021
Datum zadání: 31.03.2021
Datum potvrzení stud. oddělením: 12.04.2021
Datum a čas obhajoby: 10.09.2021 09:00
Datum odevzdání elektronické podoby:22.07.2021
Datum odevzdání tištěné podoby:22.07.2021
Datum proběhlé obhajoby: 10.09.2021
Oponenti: Mgr. Jonáš Vidra
 
 
 
Zásady pro vypracování
Neuronový strojový překladač CUBBITT dosahuje velmi dobrých výsledků při překladu mezi angličtinou a češtinou. Přesto existuje několik oblastí, kde systematicky dochází k chybám. Např. „Vážila o 20 kilo víc.“ se přeloží do angličtiny jako „She weighed 20 pounds more.“, tedy dojde k záměně kilogramů za libry, ale číslovka zůstane nezměněna. Věta „I spent $315,000 on a car.“ se přeloží do češtiny jako „Utratil jsem 315 tisíc za auto.“, tedy dojde k vypuštění měny (dolar) a tím možné změně významu. Další zaznamenané chyby jsou použití nesprávného oddělovače tisíců a desetinných čísel či překlad čísel s devíti a více číslicemi (např. 10101010 se do češtiny přeloží jako 1010101010).
Cílem bakalářské práce je provést rozbor takovýchto překladových chyb na velkém vzorku přeložených textů a pokusit se nalézt další typy chyby, které by šlo spolehlivě automaticky detekovat a opravit. Výsledkem by měl být nástroj pro opravu anglicko-českých a česko-anglických překladů, který půjde spustit z příkazové řádky i použít jako webovou službu. V konfiguraci by mělo jít nastavit, zda jednotky zachovávat, nebo přepočítávat (např. míle na kilometry). Nástroj by měl vhodnou heuristikou zvolit odpovídající překlad přibližných údajů, např. „about a mile“ není vhodné překládat jako „asi 1.609 kilometru“. I pokud uživatel preferuje zachovat jednotky (nepřepočítávat čísla), je otázka, zda neučinit výjimku tam, kde CUBBITT již nyní vhodně přeloží např. „almost three-foot stick“ jako „téměř metrový klacek“. Pro spolehlivější analýzu některých vět bude zřejmě vhodné použít externí nástroj pro slovní zarovnání (word alignment).
Seznam odborné literatury
M. Popel, M. Tomkova, J. Tomek et al. Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals. Nat Commun 11, 4381 (2020). https://doi.org/10.1038/s41467-020-18073-9

T. Kocmi, M. Popel & O. Bojar. Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords. In: arXiv:2007.03006 (2020).

R. Sennrich, B. Haddow & A. Birch. Neural machine translation of rare words with subword units. In Proceedings of ACL 2016, pages 1715–1725, Berlin, Germany, August 2016b. ACL. http://www.aclweb.org/anthology/P16-1162.
 
Univerzita Karlova | Informační systém UK