Automatický překladový slovník: Webový pohled
Název práce v češtině: | Automatický překladový slovník: Webový pohled |
---|---|
Název v anglickém jazyce: | Automatic Translation Dictionary: A Web Frontend |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | ročníková práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Úkolem ročníkového projektu a navazující bakalářské práce je navrhnout a implementovat webové rozhraní prezentující paralelní korpus jako překladový slovník.
Paralelní texty (texty dostupné ve dvou či více jazycích současně a zarovnané věta k větě) jsou cenným zdrojem dat pro rozličné aplikace zpracování přirozeného jazyka, zejména pro strojový překlad. Cílem projektu je dostupné texty zpřístupnit běžným lidem v podobě "webového slovníku", podobně jako nabízí např. stránka www.linguee.com. Téma lze odstupňovat od prosté indexace rozsáhlého objemu textů (řádově stovky milionů slov) a jednoduchého vyhledávání, až po automatické shlukování výskytů do čitelnějších "slovníkových hesel", eventuálně interaktivní nástroj, kde očištěná hesla z příkladů pomáhají několika málo klepnutími vyrobit sami uživatelé. V tématu lze pokračovat i diplomovou či disertační prací. Projekt i navazující práce přitom v maximální míře využijí dostupná data i nástroje, např. automatické zarovnání slov. Pro začátek se lze soustředit jen na pár čeština-angličtina, kde je k dispozici velký korpus CzEng, nástroj však musí být snadno rozšiřitelný o dalši jazyky (po nezbytném doplnění specifických jazykových nástrojů). |
Seznam odborné literatury |
Linguee.com
Např.: http://www.linguee.com/german-english/translation/durchf%FChren.html Paralelní korpus CzEng 1.0: http://ufal.mff.cuni.cz/czeng Ondřej Bojar, Adam Liška, and Zdeněk Žabokrtský. Evaluating Utility of Data Sources in a Large Parallel Czech-English Corpus CzEng 0.9. In Proceedings of the Seventh International Language Resources and Evaluation (LREC'10), pages 447-452, Valletta, Malta, May 2010. ELRA, European Language Resources Association. |