Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Kontextově závislý slovník pro překladatele

Thesis title in Czech:	Kontextově závislý slovník pro překladatele
Thesis title in English:	Context-Dependent Dictionary for Translators
Academic year of topic announcement:	2014/2015
Thesis type:	diploma thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	12.01.2015
Date of assignment:	28.04.2015
Confirmed by Study dept. on:	30.04.2015
Date and time of defence:	06.02.2017 10:30
Date of electronic submission:	03.01.2017
Date of submission of printed version:	04.01.2017
Date of proceeded defence:	06.02.2017
Opponents:	doc. RNDr. Vladislav Kuboň, Ph.D.

Guidelines

Při ručním překládání krátkých textů, jako se vyskytují např. v mikroblozích (Twitter ap.), je překladatel často nucen dohledávat informace v různých zdrojích. Může se jednat o méně běžná slova, která autor použil pro hutnější vyjádření, o specifické termíny z úzké domény a nejčastěji jde o široký repertoár zkratek.

Cílem diplomové práce je navrhnout, implementovat a vyhodnotit systém, který pro danou krátkou textovou zprávu dohledá v otevřených zdrojích minislovníček. Podle předvoleb překladatele do slovníčku zahrne buď všechna nebo jen méně běžná slova z překladového slovníku extrahovaného automaticky z paralelního korpusu. V dostupných databázích dohledá podrobnosti k pojmenovaným entitám (např. názvy měst, stručný popis institucí a osob) a jako nejzazší variantu zkusí neznámá slova a sousloví vyhledat na Internetu a sestavit stručné shrnutí. Vhodným rozšířením diplomové práce je zahrnout do hesel podle potřeby i obrazovou informaci.

Získaný slovníček v ideálním případě bude pro překladatele již dostačujícím podkladem, aby překládanou zprávu s jistotou pochopil a zvolil odpovídající překladové ekvivalenty včetně odborných termínů. V případě nejasností slovníček poslouží jako seznam odkazů na podrobnější popisy.

Těžiště práce spočívá v dohledání informací, jejich uspořádání podle relevance s případnou filtrací a v jejich stručné prezentaci. Empirické vyhodnocení se bude opírat o statistiky sledující, jak často byl uživatel s navrženými hesly spokojen, jak často byla hesla chybná a do jaké míry systém správně určil relevanci pro daný vstupní text.

Jako příklad a možné zapojení nástroje do větší aplikace lze uvést systém Tweeslate pro ruční podporu překladu tweetů. Tweeslate sleduje vybrané zdroje na Twitteru a jejich příspěvky rozesílá registrovaným překladatelům e-mailem. Minislovníček z této diplomové práce by byl ideální součástí rozesílaných e-mailů.

References

Liu, Xiaohua, et al. Entity Linking for Tweets. ACL (1). 2013.

Šubert Eduard, Bojar Ondřej: Twitter Crowd Translation -- Design and Objectives. In: Translating and the Computer 36, Copyright © Editions Tradulex; AsLing, Geneva, Switzerland, ISBN 9782970073628, pp. 217-227, 2014
http://tweeslate.com/

Navigli, Roberto. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR) 41.2 (2009): 10.

Moro, Andrea, Alessandro Raganato, and Roberto Navigli. Entity linking meets word sense disambiguation: a unified approach. Transactions of the Association for Computational Linguistics 2 (2014): 231-244.