Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Strojový překlad postupným zjemňováním modelu
Thesis title in Czech: Strojový překlad postupným zjemňováním modelu
Thesis title in English: Coarse-to-Fine Machine Translation
Academic year of topic announcement: 2011/2012
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author:
Guidelines
Stavový prostor (pracovní hypotézy) strojového překladu je velmi rozsáhlý (slova mají mnoho překladů, pořadí slov mohu mnoha způsoby měnit). V praxi je tento prostor prohledáván s ohledem na odhadované finální skóre hypotézy, málo nadějné částečné hypotézy jsou již ve velmi raných fázích ignorovány a nerozvíjeny dále. Při použití hrubší reprezentace vstupu a výstupu (např. pouze základní tvary slov, nikoli plně skloňované a časované tvary) se nabízí možnost prohledat větší část stavového prostoru. Nadějnost kandidáta se pak podaří stanovit přesněji a v následném zjemňování modelu (dodávání nutných podrobností jako zmíněné slovní formy) lze postihnout i takové hypotézy, které by při jednoprůchodovém hledání propadly. Podobná technika byla s úspěchem použita pro parsing.

Cílem diplomové práce je s použitím existujících nástrojů pro strojový překlad implementovat či modifikovat systém strojového překladu tak, aby stavový prostor prohledávat od hrubších hypotéz k jemnějším. Součástí práce je též navrhnout několik možných variant zhrubnutí hypotéz změny pořadí slov (např. na základě syntaktické struktury věty) a zejména empiricky vyhodnotit úspěšnost nového systému ve srovnání s jednoduššími modely strojového překladu.
References
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/

Charniak, E., Johnson, M., Elsner, M., Austerweil, J., Ellis, D., Haxton, I., Hill, C., Shrivaths, R., Moore, J., Pozar, M., and Vu, T. 2006. Multilevel coarse-to-fine PCFG parsing. In Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (New York, New York, June 04 - 09, 2006). Human Language Technology Conference. Association for Computational Linguistics, Morristown, NJ, 168-175. DOI= http://dx.doi.org/10.3115/1220835.1220857

Technika simulated annealing ze strojového učení.

Ondřej Bojar. Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html