Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Metriky pro optimalizaci modelů strojového překladu

Thesis title in Czech:	Metriky pro optimalizaci modelů strojového překladu
Thesis title in English:	Metrics for Optimizing Statistical Machine Translation
Key words:	strojový překlad, automatická metrika, optimalizace modelů, zpracování přirozeného jazyka
English key words:	machine translation, automatic metric, optimization, natural language processing
Academic year of topic announcement:	2010/2011
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	12.11.2010
Date of assignment:	12.11.2010
Date and time of defence:	18.06.2012 00:00
Date of electronic submission:	25.05.2012
Date of submission of printed version:	25.05.2012
Date of proceeded defence:	18.06.2012
Opponents:	Mgr. Martin Popel, Ph.D.

Guidelines

Statistický strojový překlad v současné době používá celou řadu dílčích modelů, které jednotlivě predikují, jak moc je věta dobrým překladem. Pro nasazení systému jako celku se pak používá lineární kombinace dílčích modelů, přičemž váhy jednotlivých modelů jsou empiricky nastaveny tak, aby na ukázkové množině vět systém překládal co nejlépe (tzv. minimum error rate training, MERT). Optimalizace vah samozřejmě závisí na způsobu, jakým měříme kvalitu a chyby překladu. Dosud byla vyvinuta celá řada tzv. metrik (nikoli v matematickém smyslu) pro strojový překlad. Většina z nich ovšem nebyla dosud buď vůbec nebo s alespoň částečným úspěchem použita pro optimalizaci modelu. Metriky se dosud používají pouze pro porovnání více různých systémů a jsou k dispozici měření, jak moc se metriky shodnou v hodnocení kvality překladu s lidmi.

Cílem ročníkového projektu je upravit či reimplementovat některé metriky kvality strojového překladu a zapojit je do automatické optimalizace překladového systému.

Cílem navazující bakalářské práce je otestovat tyto metriky při optimalizaci překladu z angličtiny do češtiny. Nedílnou součástí práce je porovnání a analýza zjištěné použitelnosti metrik pro úlohu optimalizace s existujícími korelacemi s lidským hodnocením. Pravděpodobně se ukáže, že řada metrik koreluje s lidmi dobře, ale je nevhodná pro optimalizaci modelů. Vhodným rozšířením bakalářské práce je návrh vlastní metriky, která by byla použitelná v obou případech.

References

Ondřej Bojar and Kamil Kos: 2010 Failures in English-Czech Phrase-Based MT. ACL WMT10, 2010.

Ondřej Bojar; Kamil Kos; David Mareček: Tackling Sparse Data Issue in Machine Translation Evaluation. ACL 2010.
http://aclweb.org/anthology-new/P/P10/P10-2016.pdf

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/