Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Strojový překlad postupným zjemňováním modelu
Název práce v češtině: Strojový překlad postupným zjemňováním modelu
Název v anglickém jazyce: Coarse-to-Fine Machine Translation
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:
Zásady pro vypracování
Stavový prostor (pracovní hypotézy) strojového překladu je velmi rozsáhlý (slova mají mnoho překladů, pořadí slov mohu mnoha způsoby měnit). V praxi je tento prostor prohledáván s ohledem na odhadované finální skóre hypotézy, málo nadějné částečné hypotézy jsou již ve velmi raných fázích ignorovány a nerozvíjeny dále. Při použití hrubší reprezentace vstupu a výstupu (např. pouze základní tvary slov, nikoli plně skloňované a časované tvary) se nabízí možnost prohledat větší část stavového prostoru. Nadějnost kandidáta se pak podaří stanovit přesněji a v následném zjemňování modelu (dodávání nutných podrobností jako zmíněné slovní formy) lze postihnout i takové hypotézy, které by při jednoprůchodovém hledání propadly. Podobná technika byla s úspěchem použita pro parsing.

Cílem diplomové práce je s použitím existujících nástrojů pro strojový překlad implementovat či modifikovat systém strojového překladu tak, aby stavový prostor prohledávat od hrubších hypotéz k jemnějším. Součástí práce je též navrhnout několik možných variant zhrubnutí hypotéz změny pořadí slov (např. na základě syntaktické struktury věty) a zejména empiricky vyhodnotit úspěšnost nového systému ve srovnání s jednoduššími modely strojového překladu.
Seznam odborné literatury
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/

Charniak, E., Johnson, M., Elsner, M., Austerweil, J., Ellis, D., Haxton, I., Hill, C., Shrivaths, R., Moore, J., Pozar, M., and Vu, T. 2006. Multilevel coarse-to-fine PCFG parsing. In Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (New York, New York, June 04 - 09, 2006). Human Language Technology Conference. Association for Computational Linguistics, Morristown, NJ, 168-175. DOI= http://dx.doi.org/10.3115/1220835.1220857

Technika simulated annealing ze strojového učení.

Ondřej Bojar. Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
 
Univerzita Karlova | Informační systém UK