Vyhodnocování překladu textů v obrázcích
Název práce v češtině: | Vyhodnocování překladu textů v obrázcích |
---|---|
Název v anglickém jazyce: | Evaluation of text translation in images |
Klíčová slova: | evaluace|parsování SVG|vykreslovaní SVG|strojový překlad|OCR |
Klíčová slova anglicky: | evaluation|SVG parsing|SVG rendering|machine translation|OCR |
Akademický rok vypsání: | 2023/2024 |
Typ práce: | bakalářská práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Michal Novák, Ph.D. |
Řešitel: | Šárka Uramová - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 08.02.2024 |
Datum zadání: | 08.02.2024 |
Datum potvrzení stud. oddělením: | 08.02.2024 |
Zásady pro vypracování |
Úlohu strojového překladu textů v rastrových obrázcích je typicky možno rozdělit do několika kroků: (1) lokalizace textových polí v obrázku, (2) převedení textových polí z rastrové grafiky do textové reprezentace, (3) překlad příslušných textů a (4) vykreslení překladů zpátky na odpovídající místa do obrázku. V ideálním případě je výstupem této úlohy stejný obrázek, kde jsou původní texty nahrazeny jejich překlady. Zatímco automatické vyhodnocení systému provádějícího tuto úlohu jenom na základě výsledného rastrového obrázku může být poměrně obtížné, vyhodnotit úspěšnost provedení jednotlivých kroků je s pomocí vhodně zvolené testovací dátové množiny jednodušší úkol.
Prvním cílem práce je implementovat aplikaci pro automatický sběr dat pro úlohu překladu textů v obrázcích se zaměřením na původně vektorové grafiky a diagramy ve formátu SVG (t.j. nikoliv fotografie ani skeny). Zdrojem dat budou volně dostupné obrázky z Wikipedie, přičemž úkolem je najít dvojice obrázků obsahující grafiky i texty a lišící se jenom v textech. Druhým cílem práce je vyvinout aplikaci pro vyhodnocování kvality výstupů jednotlivých kroků v této úloze. Za tímto účelem aplikace využije nástroje na vykreslování a parsování formátu SVG (např. Inkscape [1] nebo Librsvg [2]). Na vyhodnocení bude používat standardní metriky pro měření podobnosti textů (např. Levenshteinovou vzdálenost) a úspěšnosti překladů (např. BLEU [3] a chrF [4]). |
Seznam odborné literatury |
[1] https://inkscape.org
[2] https://gitlab.gnome.org/GNOME/librsvg [3] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. Association for Computational Linguistics. [4] Maja Popović. 2015. chrF: character n-gram F-score for automatic MT evaluation. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 392–395, Lisbon, Portugal. Association for Computational Linguistics. |