Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Metriky pro optimalizaci modelů strojového překladu

Název práce v češtině:	Metriky pro optimalizaci modelů strojového překladu
Název v anglickém jazyce:	Metrics for Optimizing Statistical Machine Translation
Klíčová slova:	strojový překlad, automatická metrika, optimalizace modelů, zpracování přirozeného jazyka
Klíčová slova anglicky:	machine translation, automatic metric, optimization, natural language processing
Akademický rok vypsání:	2010/2011
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	12.11.2010
Datum zadání:	12.11.2010
Datum a čas obhajoby:	18.06.2012 00:00
Datum odevzdání elektronické podoby:	25.05.2012
Datum odevzdání tištěné podoby:	25.05.2012
Datum proběhlé obhajoby:	18.06.2012
Oponenti:	Mgr. Martin Popel, Ph.D.

Zásady pro vypracování

Statistický strojový překlad v současné době používá celou řadu dílčích modelů, které jednotlivě predikují, jak moc je věta dobrým překladem. Pro nasazení systému jako celku se pak používá lineární kombinace dílčích modelů, přičemž váhy jednotlivých modelů jsou empiricky nastaveny tak, aby na ukázkové množině vět systém překládal co nejlépe (tzv. minimum error rate training, MERT). Optimalizace vah samozřejmě závisí na způsobu, jakým měříme kvalitu a chyby překladu. Dosud byla vyvinuta celá řada tzv. metrik (nikoli v matematickém smyslu) pro strojový překlad. Většina z nich ovšem nebyla dosud buď vůbec nebo s alespoň částečným úspěchem použita pro optimalizaci modelu. Metriky se dosud používají pouze pro porovnání více různých systémů a jsou k dispozici měření, jak moc se metriky shodnou v hodnocení kvality překladu s lidmi.

Cílem ročníkového projektu je upravit či reimplementovat některé metriky kvality strojového překladu a zapojit je do automatické optimalizace překladového systému.

Cílem navazující bakalářské práce je otestovat tyto metriky při optimalizaci překladu z angličtiny do češtiny. Nedílnou součástí práce je porovnání a analýza zjištěné použitelnosti metrik pro úlohu optimalizace s existujícími korelacemi s lidským hodnocením. Pravděpodobně se ukáže, že řada metrik koreluje s lidmi dobře, ale je nevhodná pro optimalizaci modelů. Vhodným rozšířením bakalářské práce je návrh vlastní metriky, která by byla použitelná v obou případech.

Seznam odborné literatury

Ondřej Bojar and Kamil Kos: 2010 Failures in English-Czech Phrase-Based MT. ACL WMT10, 2010.

Ondřej Bojar; Kamil Kos; David Mareček: Tackling Sparse Data Issue in Machine Translation Evaluation. ACL 2010.
http://aclweb.org/anthology-new/P/P10/P10-2016.pdf

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/