Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Vyhodnocování překladu textů v obrázcích

Název práce v češtině:	Vyhodnocování překladu textů v obrázcích
Název v anglickém jazyce:	Evaluation of text translation in images
Klíčová slova:	evaluace\|parsování SVG\|vykreslovaní SVG\|strojový překlad\|OCR
Klíčová slova anglicky:	evaluation\|SVG parsing\|SVG rendering\|machine translation\|OCR
Akademický rok vypsání:	2023/2024
Typ práce:	bakalářská práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Michal Novák, Ph.D.
Řešitel:	Šárka Uramová - zadáno a potvrzeno stud. odd.
Datum přihlášení:	08.02.2024
Datum zadání:	08.02.2024
Datum potvrzení stud. oddělením:	08.02.2024

Zásady pro vypracování

Úlohu strojového překladu textů v rastrových obrázcích je typicky možno rozdělit do několika kroků: (1) lokalizace textových polí v obrázku, (2) převedení textových polí z rastrové grafiky do textové reprezentace, (3) překlad příslušných textů a (4) vykreslení překladů zpátky na odpovídající místa do obrázku. V ideálním případě je výstupem této úlohy stejný obrázek, kde jsou původní texty nahrazeny jejich překlady. Zatímco automatické vyhodnocení systému provádějícího tuto úlohu jenom na základě výsledného rastrového obrázku může být poměrně obtížné, vyhodnotit úspěšnost provedení jednotlivých kroků je s pomocí vhodně zvolené testovací dátové množiny jednodušší úkol.

Prvním cílem práce je implementovat aplikaci pro automatický sběr dat pro úlohu překladu textů v obrázcích se zaměřením na původně vektorové grafiky a diagramy ve formátu SVG (t.j. nikoliv fotografie ani skeny). Zdrojem dat budou volně dostupné obrázky z Wikipedie, přičemž úkolem je najít dvojice obrázků obsahující grafiky i texty a lišící se jenom v textech.

Druhým cílem práce je vyvinout aplikaci pro vyhodnocování kvality výstupů jednotlivých kroků v této úloze. Za tímto účelem aplikace využije nástroje na vykreslování a parsování formátu SVG (např. Inkscape [1] nebo Librsvg [2]). Na vyhodnocení bude používat standardní metriky pro měření podobnosti textů (např. Levenshteinovou vzdálenost) a úspěšnosti překladů (např. BLEU [3] a chrF [4]).

Seznam odborné literatury

[1] https://inkscape.org
[2] https://gitlab.gnome.org/GNOME/librsvg
[3] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. Association for Computational Linguistics.
[4] Maja Popović. 2015. chrF: character n-gram F-score for automatic MT evaluation. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 392–395, Lisbon, Portugal. Association for Computational Linguistics.