Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatický překladový slovník: Webový pohled
Thesis title in Czech: Automatický překladový slovník: Webový pohled
Thesis title in English: Automatic Translation Dictionary: A Web Frontend
Academic year of topic announcement: 2014/2015
Thesis type: school year task
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author:
Guidelines
Úkolem ročníkového projektu a navazující bakalářské práce je navrhnout a implementovat webové rozhraní prezentující paralelní korpus jako překladový slovník.

Paralelní texty (texty dostupné ve dvou či více jazycích současně a zarovnané věta k větě) jsou cenným zdrojem dat pro rozličné aplikace zpracování přirozeného jazyka, zejména pro strojový překlad. Cílem projektu je dostupné texty zpřístupnit běžným lidem v podobě "webového slovníku", podobně jako nabízí např. stránka www.linguee.com.

Téma lze odstupňovat od prosté indexace rozsáhlého objemu textů (řádově stovky milionů slov) a jednoduchého vyhledávání, až po automatické shlukování výskytů do čitelnějších "slovníkových hesel", eventuálně interaktivní nástroj, kde očištěná hesla z příkladů pomáhají několika málo klepnutími vyrobit sami uživatelé. V tématu lze pokračovat i diplomovou či disertační prací.

Projekt i navazující práce přitom v maximální míře využijí dostupná data i nástroje, např. automatické zarovnání slov. Pro začátek se lze soustředit jen na pár čeština-angličtina, kde je k dispozici velký korpus CzEng, nástroj však musí být snadno rozšiřitelný o dalši jazyky (po nezbytném doplnění specifických jazykových nástrojů).
References
Linguee.com
Např.: http://www.linguee.com/german-english/translation/durchf%FChren.html

Paralelní korpus CzEng 1.0:
http://ufal.mff.cuni.cz/czeng

Ondřej Bojar, Adam Liška, and Zdeněk Žabokrtský. Evaluating Utility of Data Sources in a Large Parallel Czech-English Corpus CzEng 0.9. In Proceedings of the Seventh International Language Resources and Evaluation (LREC'10), pages 447-452, Valletta, Malta, May 2010. ELRA, European Language Resources Association.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html