Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Využití hrubé reprezentace slov ve strojovém překladu do češtiny

Thesis title in Czech:	Využití hrubé reprezentace slov ve strojovém překladu do češtiny
Thesis title in English:	Coarse Word Representations in Machine Translation into Czech
Academic year of topic announcement:	2014/2015
Thesis type:	diploma thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	21.09.2015
Date of assignment:	21.09.2015
Confirmed by Study dept. on:	21.09.2015
Date and time of defence:	12.09.2016 12:00
Date of electronic submission:	28.07.2016
Date of submission of printed version:	28.07.2016
Date of proceeded defence:	12.09.2016
Opponents:	RNDr. David Mareček, Ph.D.

Guidelines

Většina současných metod statistického strojového překladu pracuje se slovy jako s nedělitelnými jednotkami. V automaticky získávaných překladových slovnících pro tyto systémy tak často vstupní slovní tvary mohou chybět, přestože jiný tvar téhož slova bylo možné z dat získat. Jednotlivé jazyky se liší v tom, z čeho bohatost slovních tvarů pramení. Například v němčině jde ve větší míře o slovotvorbu (zejm. složeniny), v češtině o flexi, která se projevuje množstvím různých koncovek, zpracování maďarštiny čelí oběma problémům.

Cílem diplomové práce je na překladu z němčiny a z maďarštiny do češtiny studovat metody, které reprezentují slova nějakou hrubší reprezentací. Hrubší reprezentace může posloužit na zdrojové straně (dělení německých složenin i maďarských slov na součásti, případně až na úroveň morfémů; lematizace; automatické slovní třídy) jako doplňek ke vstupu, na cílové straně (překlad do lemat následovaný jejich tvarováním), i na obou stranách současně (automatické slovní třídy na "dvojslovech" ze zdrojového a cílového jazyka, které mohou pomoci s homonymií a polysémii vstupu).

V teoretické části je třeba se vymezit vůči metodám, které stejné problémy řeší spojitou reprezentací slovních tvarů. Zejména se jedná o různé komponenty systémů strojového překladu založené na neuronových sítích. Vhodným rozšířením diplomové práce je některé z těchto metod aplikovat na studované jazykové páry.

Nedílnou součástí práce je příprava trénovacích a testovacích dat pro oba jazykové páry a pečlivé porovnání několika metod z hlediska vlivu na kvalitu překladu. Kvalita strojového překladu bude vyhodnocována především automaticky pomocí zavedených metod, pro významné konfigurace je však třeba automatické měření prověřit pomocí ručního hodnocení.

References

Durrani, Nadir and Koehn, Philipp and Schmid, Helmut and Fraser, Alexander. Investigating the Usefulness of Generalized Word Representations in SMT. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014.

Darlene Stewart, Roland Kuhn, Eric Joanis, and George Foster. Coarse split and lump bilingual language models for richer source information in SMT. In Proceedings of the Eleventh Conference of the Association for Machine Translation in the Americas (AMTA), volume 1, pages 28–41. 2014.

Chris Dyer. Using a maximum entropy model to build segmentation lattices for MT. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL '09). Association for Computational Linguistics, Stroudsburg, PA, USA, 406-414. 2009.

Klaus Macherey, Andrew M. Dai, David Talbot, Ashok C. Popat, and Franz Och. Language-independent compound splitting with morphological operations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA, 1395-1404. 2011.

Ilya Sutskever, Oriol Vinyals, Quoc Le. Sequence to Sequence Learning with Neural Networks. NIPS. 2014.

Philipp Koehn, Alexandra Birch and Ralf Steinberger. 462 Machine Translation Systems for Europe, MT Summit XII, 2009.