Automatický překladový slovník: Webový pohled
Thesis title in Czech: | Automatický překladový slovník: Webový pohled |
---|---|
Thesis title in English: | Automatic Translation Dictionary: A Web Frontend |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | school year task |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: |
Guidelines |
Úkolem ročníkového projektu a navazující bakalářské práce je navrhnout a implementovat webové rozhraní prezentující paralelní korpus jako překladový slovník.
Paralelní texty (texty dostupné ve dvou či více jazycích současně a zarovnané věta k větě) jsou cenným zdrojem dat pro rozličné aplikace zpracování přirozeného jazyka, zejména pro strojový překlad. Cílem projektu je dostupné texty zpřístupnit běžným lidem v podobě "webového slovníku", podobně jako nabízí např. stránka www.linguee.com. Téma lze odstupňovat od prosté indexace rozsáhlého objemu textů (řádově stovky milionů slov) a jednoduchého vyhledávání, až po automatické shlukování výskytů do čitelnějších "slovníkových hesel", eventuálně interaktivní nástroj, kde očištěná hesla z příkladů pomáhají několika málo klepnutími vyrobit sami uživatelé. V tématu lze pokračovat i diplomovou či disertační prací. Projekt i navazující práce přitom v maximální míře využijí dostupná data i nástroje, např. automatické zarovnání slov. Pro začátek se lze soustředit jen na pár čeština-angličtina, kde je k dispozici velký korpus CzEng, nástroj však musí být snadno rozšiřitelný o dalši jazyky (po nezbytném doplnění specifických jazykových nástrojů). |
References |
Linguee.com
Např.: http://www.linguee.com/german-english/translation/durchf%FChren.html Paralelní korpus CzEng 1.0: http://ufal.mff.cuni.cz/czeng Ondřej Bojar, Adam Liška, and Zdeněk Žabokrtský. Evaluating Utility of Data Sources in a Large Parallel Czech-English Corpus CzEng 0.9. In Proceedings of the Seventh International Language Resources and Evaluation (LREC'10), pages 447-452, Valletta, Malta, May 2010. ELRA, European Language Resources Association. |