Využití hrubé reprezentace slov ve strojovém překladu do češtiny
Thesis title in Czech: | Využití hrubé reprezentace slov ve strojovém překladu do češtiny |
---|---|
Thesis title in English: | Coarse Word Representations in Machine Translation into Czech |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 21.09.2015 |
Date of assignment: | 21.09.2015 |
Confirmed by Study dept. on: | 21.09.2015 |
Date and time of defence: | 12.09.2016 12:00 |
Date of electronic submission: | 28.07.2016 |
Date of submission of printed version: | 28.07.2016 |
Date of proceeded defence: | 12.09.2016 |
Opponents: | RNDr. David Mareček, Ph.D. |
Guidelines |
Většina současných metod statistického strojového překladu pracuje se slovy jako s nedělitelnými jednotkami. V automaticky získávaných překladových slovnících pro tyto systémy tak často vstupní slovní tvary mohou chybět, přestože jiný tvar téhož slova bylo možné z dat získat. Jednotlivé jazyky se liší v tom, z čeho bohatost slovních tvarů pramení. Například v němčině jde ve větší míře o slovotvorbu (zejm. složeniny), v češtině o flexi, která se projevuje množstvím různých koncovek, zpracování maďarštiny čelí oběma problémům.
Cílem diplomové práce je na překladu z němčiny a z maďarštiny do češtiny studovat metody, které reprezentují slova nějakou hrubší reprezentací. Hrubší reprezentace může posloužit na zdrojové straně (dělení německých složenin i maďarských slov na součásti, případně až na úroveň morfémů; lematizace; automatické slovní třídy) jako doplňek ke vstupu, na cílové straně (překlad do lemat následovaný jejich tvarováním), i na obou stranách současně (automatické slovní třídy na "dvojslovech" ze zdrojového a cílového jazyka, které mohou pomoci s homonymií a polysémii vstupu). V teoretické části je třeba se vymezit vůči metodám, které stejné problémy řeší spojitou reprezentací slovních tvarů. Zejména se jedná o různé komponenty systémů strojového překladu založené na neuronových sítích. Vhodným rozšířením diplomové práce je některé z těchto metod aplikovat na studované jazykové páry. Nedílnou součástí práce je příprava trénovacích a testovacích dat pro oba jazykové páry a pečlivé porovnání několika metod z hlediska vlivu na kvalitu překladu. Kvalita strojového překladu bude vyhodnocována především automaticky pomocí zavedených metod, pro významné konfigurace je však třeba automatické měření prověřit pomocí ručního hodnocení. |
References |
Durrani, Nadir and Koehn, Philipp and Schmid, Helmut and Fraser, Alexander. Investigating the Usefulness of Generalized Word Representations in SMT. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014.
Darlene Stewart, Roland Kuhn, Eric Joanis, and George Foster. Coarse split and lump bilingual language models for richer source information in SMT. In Proceedings of the Eleventh Conference of the Association for Machine Translation in the Americas (AMTA), volume 1, pages 28–41. 2014. Chris Dyer. Using a maximum entropy model to build segmentation lattices for MT. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL '09). Association for Computational Linguistics, Stroudsburg, PA, USA, 406-414. 2009. Klaus Macherey, Andrew M. Dai, David Talbot, Ashok C. Popat, and Franz Och. Language-independent compound splitting with morphological operations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA, 1395-1404. 2011. Ilya Sutskever, Oriol Vinyals, Quoc Le. Sequence to Sequence Learning with Neural Networks. NIPS. 2014. Philipp Koehn, Alexandra Birch and Ralf Steinberger. 462 Machine Translation Systems for Europe, MT Summit XII, 2009. |