Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 372)
Detail práce
   Přihlásit přes CAS
Kontextově závislý slovník pro překladatele
Název práce v češtině: Kontextově závislý slovník pro překladatele
Název v anglickém jazyce: Context-Dependent Dictionary for Translators
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 12.01.2015
Datum zadání: 28.04.2015
Datum potvrzení stud. oddělením: 30.04.2015
Datum a čas obhajoby: 06.02.2017 10:30
Datum odevzdání elektronické podoby:03.01.2017
Datum odevzdání tištěné podoby:04.01.2017
Datum proběhlé obhajoby: 06.02.2017
Oponenti: doc. RNDr. Vladislav Kuboň, Ph.D.
 
 
 
Zásady pro vypracování
Při ručním překládání krátkých textů, jako se vyskytují např. v mikroblozích (Twitter ap.), je překladatel často nucen dohledávat informace v různých zdrojích. Může se jednat o méně běžná slova, která autor použil pro hutnější vyjádření, o specifické termíny z úzké domény a nejčastěji jde o široký repertoár zkratek.

Cílem diplomové práce je navrhnout, implementovat a vyhodnotit systém, který pro danou krátkou textovou zprávu dohledá v otevřených zdrojích minislovníček. Podle předvoleb překladatele do slovníčku zahrne buď všechna nebo jen méně běžná slova z překladového slovníku extrahovaného automaticky z paralelního korpusu. V dostupných databázích dohledá podrobnosti k pojmenovaným entitám (např. názvy měst, stručný popis institucí a osob) a jako nejzazší variantu zkusí neznámá slova a sousloví vyhledat na Internetu a sestavit stručné shrnutí. Vhodným rozšířením diplomové práce je zahrnout do hesel podle potřeby i obrazovou informaci.

Získaný slovníček v ideálním případě bude pro překladatele již dostačujícím podkladem, aby překládanou zprávu s jistotou pochopil a zvolil odpovídající překladové ekvivalenty včetně odborných termínů. V případě nejasností slovníček poslouží jako seznam odkazů na podrobnější popisy.

Těžiště práce spočívá v dohledání informací, jejich uspořádání podle relevance s případnou filtrací a v jejich stručné prezentaci. Empirické vyhodnocení se bude opírat o statistiky sledující, jak často byl uživatel s navrženými hesly spokojen, jak často byla hesla chybná a do jaké míry systém správně určil relevanci pro daný vstupní text.

Jako příklad a možné zapojení nástroje do větší aplikace lze uvést systém Tweeslate pro ruční podporu překladu tweetů. Tweeslate sleduje vybrané zdroje na Twitteru a jejich příspěvky rozesílá registrovaným překladatelům e-mailem. Minislovníček z této diplomové práce by byl ideální součástí rozesílaných e-mailů.
Seznam odborné literatury
Liu, Xiaohua, et al. Entity Linking for Tweets. ACL (1). 2013.

Šubert Eduard, Bojar Ondřej: Twitter Crowd Translation -- Design and Objectives. In: Translating and the Computer 36, Copyright © Editions Tradulex; AsLing, Geneva, Switzerland, ISBN 9782970073628, pp. 217-227, 2014
http://tweeslate.com/

Navigli, Roberto. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR) 41.2 (2009): 10.

Moro, Andrea, Alessandro Raganato, and Roberto Navigli. Entity linking meets word sense disambiguation: a unified approach. Transactions of the Association for Computational Linguistics 2 (2014): 231-244.
 
Univerzita Karlova | Informační systém UK