Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Vyhodnocování překladu textů v obrázcích

Thesis title in Czech:	Vyhodnocování překladu textů v obrázcích
Thesis title in English:	Evaluation of text translation in images
Key words:	evaluace\|parsování SVG\|vykreslovaní SVG\|strojový překlad\|OCR
English key words:	evaluation\|SVG parsing\|SVG rendering\|machine translation\|OCR
Academic year of topic announcement:	2023/2024
Thesis type:	Bachelor's thesis
Thesis language:
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	Mgr. Michal Novák, Ph.D.
Author:	Šárka Uramová - assigned and confirmed by the Study Dept.
Date of registration:	08.02.2024
Date of assignment:	08.02.2024
Confirmed by Study dept. on:	08.02.2024

Guidelines

Úlohu strojového překladu textů v rastrových obrázcích je typicky možno rozdělit do několika kroků: (1) lokalizace textových polí v obrázku, (2) převedení textových polí z rastrové grafiky do textové reprezentace, (3) překlad příslušných textů a (4) vykreslení překladů zpátky na odpovídající místa do obrázku. V ideálním případě je výstupem této úlohy stejný obrázek, kde jsou původní texty nahrazeny jejich překlady. Zatímco automatické vyhodnocení systému provádějícího tuto úlohu jenom na základě výsledného rastrového obrázku může být poměrně obtížné, vyhodnotit úspěšnost provedení jednotlivých kroků je s pomocí vhodně zvolené testovací dátové množiny jednodušší úkol.

Prvním cílem práce je implementovat aplikaci pro automatický sběr dat pro úlohu překladu textů v obrázcích se zaměřením na původně vektorové grafiky a diagramy ve formátu SVG (t.j. nikoliv fotografie ani skeny). Zdrojem dat budou volně dostupné obrázky z Wikipedie, přičemž úkolem je najít dvojice obrázků obsahující grafiky i texty a lišící se jenom v textech.

Druhým cílem práce je vyvinout aplikaci pro vyhodnocování kvality výstupů jednotlivých kroků v této úloze. Za tímto účelem aplikace využije nástroje na vykreslování a parsování formátu SVG (např. Inkscape [1] nebo Librsvg [2]). Na vyhodnocení bude používat standardní metriky pro měření podobnosti textů (např. Levenshteinovou vzdálenost) a úspěšnosti překladů (např. BLEU [3] a chrF [4]).

References

[1] https://inkscape.org
[2] https://gitlab.gnome.org/GNOME/librsvg
[3] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. Association for Computational Linguistics.
[4] Maja Popović. 2015. chrF: character n-gram F-score for automatic MT evaluation. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 392–395, Lisbon, Portugal. Association for Computational Linguistics.