Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 341)
Detail práce
   Přihlásit přes CAS
Machine Translation of Spoken English into Czech
Název práce v češtině: Strojový překlad z mluvené angličtiny do češtiny
Název v anglickém jazyce: Machine Translation of Spoken English into Czech
Klíčová slova: překlad mluvené řeči, rozpoznání řeči, strojový překlad, čeština, angličtina
Klíčová slova anglicky: spoken language translation, speech recognition, machine translation, Czech, English
Akademický rok vypsání: 2015/2016
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 24.09.2015
Datum zadání: 25.09.2015
Datum potvrzení stud. oddělením: 06.10.2015
Datum a čas obhajoby: 08.09.2016 00:00
Datum odevzdání elektronické podoby:17.06.2016
Datum odevzdání tištěné podoby:17.06.2016
Datum proběhlé obhajoby: 08.09.2016
Oponenti: Mgr. Jindřich Helcl, Ph.D.
 
 
 
Zásady pro vypracování
Cílem bakalářské práce je spojit dostupné volně šiřitelné nástroje pro rozpoznávání řeči (automatic speech recognition, ASR) a pro strojový překlad (machine translation, MT) do funkčního celku překládajícího mluvenou angličtinu do češtiny. Z praktického hlediska bude výhodné, pokud na systém naváže i hlasová syntéza češtiny, tato komponenta je však z hlediska bakalářské práce nepodstatná.

Prvním krokem v práci bude sestavení prototypu a sběr ukázkové množiny vstupů a výstupů. Na základě vyhodnocení chyb ve výstupech řešitel rozhodne, na kterou z komponent se v práci zaměřit důkladněji.

U komponenty rozpoznávající mluvenou řeč se může jednat o celou řadu problémů, např. příliš vysoký podíl nerozpoznaných slov, nedostatečnost jazykového modelu ap. Vzhledem ke zvolenému překladovému páru angličtina->čeština lze navíc očekávat (např. v případě nasazení systému jako pomocníka pro zahraniční turisty v ČR), že anglický vstup bude obsahovat relativně často česká jména. Pro anglické ASR budou takové výrazy pravděpodobně zcela nerozpoznatelné. Tento problém by mohlo jít řešit např. doplněním potřebných hlásek do rozpoznávače nebo současným nasazením anglického a českého ASR.

Překladový systém, na nemž bude práce stavět, dosud sloužil výhradně pro překlad psaných textů, zejména novinových článků. Potřebné přizpůsobení systému na mluvenou řeč bude pravděpodobně zahrnovat doménovou adaptaci (doplnění a výběr korpusu z hlediska charakteru vět i jejich témat, optimalizace parametrů systému pro tuto novou úlohu) i specifické úpravy formátu trénovacího korpusu (např. velikost písmen nehraje v mluvené řeči roli, interpunkce ve výstupu ASR typicky chybí, ap.)

Nedílnou součástí práce je sestavení vhodné testovací množiny, tj. vzorku anglických nahrávek a jejich českých překladů (v textové podobě), a pečlivé vyhodnocení navrhovaných úprav jednotlivých komponent systému na této množině. Kvalita ASR bude vyhodnocována klasickými automatickými metodami proti ručním přepisům nahrávek (zejména WER), kvalita překladové komponenty musí být stanovena nejen pomocí automatických metrik (BLEU nebo některá z metrik vhodnějších pro češtinu), ale též ručním vyhodnocením.
Seznam odborné literatury
Plátek Ondřej, Jurčíček Filip. 2014. Free on-line speech recogniser based on Kaldi ASR toolkit producing word posterior lattices. In Proceedings of SIGDIAL.

Bojar Ondřej, Tamchyna Aleš: CUNI in WMT15: Chimera Strikes Again. In: Proceedings of the 10th Workshop on Machine Translation, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-941643-32-7, pp. 79-83, 2015

Stanojević Miloš, Kamran Amir, Koehn Philipp, Bojar Ondřej: Results of the WMT15 Metrics Shared Task. In: Proceedings of the 10th Workshop on Machine Translation, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-941643-32-7, pp. 256-273, 2015.
 
Univerzita Karlova | Informační systém UK