Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Kontextově závislý slovník pro překladatele
Thesis title in Czech: Kontextově závislý slovník pro překladatele
Thesis title in English: Context-Dependent Dictionary for Translators
Academic year of topic announcement: 2014/2015
Thesis type: diploma thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 12.01.2015
Date of assignment: 28.04.2015
Confirmed by Study dept. on: 30.04.2015
Date and time of defence: 06.02.2017 10:30
Date of electronic submission:03.01.2017
Date of submission of printed version:04.01.2017
Date of proceeded defence: 06.02.2017
Opponents: doc. RNDr. Vladislav Kuboň, Ph.D.
 
 
 
Guidelines
Při ručním překládání krátkých textů, jako se vyskytují např. v mikroblozích (Twitter ap.), je překladatel často nucen dohledávat informace v různých zdrojích. Může se jednat o méně běžná slova, která autor použil pro hutnější vyjádření, o specifické termíny z úzké domény a nejčastěji jde o široký repertoár zkratek.

Cílem diplomové práce je navrhnout, implementovat a vyhodnotit systém, který pro danou krátkou textovou zprávu dohledá v otevřených zdrojích minislovníček. Podle předvoleb překladatele do slovníčku zahrne buď všechna nebo jen méně běžná slova z překladového slovníku extrahovaného automaticky z paralelního korpusu. V dostupných databázích dohledá podrobnosti k pojmenovaným entitám (např. názvy měst, stručný popis institucí a osob) a jako nejzazší variantu zkusí neznámá slova a sousloví vyhledat na Internetu a sestavit stručné shrnutí. Vhodným rozšířením diplomové práce je zahrnout do hesel podle potřeby i obrazovou informaci.

Získaný slovníček v ideálním případě bude pro překladatele již dostačujícím podkladem, aby překládanou zprávu s jistotou pochopil a zvolil odpovídající překladové ekvivalenty včetně odborných termínů. V případě nejasností slovníček poslouží jako seznam odkazů na podrobnější popisy.

Těžiště práce spočívá v dohledání informací, jejich uspořádání podle relevance s případnou filtrací a v jejich stručné prezentaci. Empirické vyhodnocení se bude opírat o statistiky sledující, jak často byl uživatel s navrženými hesly spokojen, jak často byla hesla chybná a do jaké míry systém správně určil relevanci pro daný vstupní text.

Jako příklad a možné zapojení nástroje do větší aplikace lze uvést systém Tweeslate pro ruční podporu překladu tweetů. Tweeslate sleduje vybrané zdroje na Twitteru a jejich příspěvky rozesílá registrovaným překladatelům e-mailem. Minislovníček z této diplomové práce by byl ideální součástí rozesílaných e-mailů.
References
Liu, Xiaohua, et al. Entity Linking for Tweets. ACL (1). 2013.

Šubert Eduard, Bojar Ondřej: Twitter Crowd Translation -- Design and Objectives. In: Translating and the Computer 36, Copyright © Editions Tradulex; AsLing, Geneva, Switzerland, ISBN 9782970073628, pp. 217-227, 2014
http://tweeslate.com/

Navigli, Roberto. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR) 41.2 (2009): 10.

Moro, Andrea, Alessandro Raganato, and Roberto Navigli. Entity linking meets word sense disambiguation: a unified approach. Transactions of the Association for Computational Linguistics 2 (2014): 231-244.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html