Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Využití hrubé reprezentace slov ve strojovém překladu do češtiny

Název práce v češtině:	Využití hrubé reprezentace slov ve strojovém překladu do češtiny
Název v anglickém jazyce:	Coarse Word Representations in Machine Translation into Czech
Akademický rok vypsání:	2014/2015
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	21.09.2015
Datum zadání:	21.09.2015
Datum potvrzení stud. oddělením:	21.09.2015
Datum a čas obhajoby:	12.09.2016 12:00
Datum odevzdání elektronické podoby:	28.07.2016
Datum odevzdání tištěné podoby:	28.07.2016
Datum proběhlé obhajoby:	12.09.2016
Oponenti:	RNDr. David Mareček, Ph.D.

Zásady pro vypracování

Většina současných metod statistického strojového překladu pracuje se slovy jako s nedělitelnými jednotkami. V automaticky získávaných překladových slovnících pro tyto systémy tak často vstupní slovní tvary mohou chybět, přestože jiný tvar téhož slova bylo možné z dat získat. Jednotlivé jazyky se liší v tom, z čeho bohatost slovních tvarů pramení. Například v němčině jde ve větší míře o slovotvorbu (zejm. složeniny), v češtině o flexi, která se projevuje množstvím různých koncovek, zpracování maďarštiny čelí oběma problémům.

Cílem diplomové práce je na překladu z němčiny a z maďarštiny do češtiny studovat metody, které reprezentují slova nějakou hrubší reprezentací. Hrubší reprezentace může posloužit na zdrojové straně (dělení německých složenin i maďarských slov na součásti, případně až na úroveň morfémů; lematizace; automatické slovní třídy) jako doplňek ke vstupu, na cílové straně (překlad do lemat následovaný jejich tvarováním), i na obou stranách současně (automatické slovní třídy na "dvojslovech" ze zdrojového a cílového jazyka, které mohou pomoci s homonymií a polysémii vstupu).

V teoretické části je třeba se vymezit vůči metodám, které stejné problémy řeší spojitou reprezentací slovních tvarů. Zejména se jedná o různé komponenty systémů strojového překladu založené na neuronových sítích. Vhodným rozšířením diplomové práce je některé z těchto metod aplikovat na studované jazykové páry.

Nedílnou součástí práce je příprava trénovacích a testovacích dat pro oba jazykové páry a pečlivé porovnání několika metod z hlediska vlivu na kvalitu překladu. Kvalita strojového překladu bude vyhodnocována především automaticky pomocí zavedených metod, pro významné konfigurace je však třeba automatické měření prověřit pomocí ručního hodnocení.

Seznam odborné literatury

Durrani, Nadir and Koehn, Philipp and Schmid, Helmut and Fraser, Alexander. Investigating the Usefulness of Generalized Word Representations in SMT. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014.

Darlene Stewart, Roland Kuhn, Eric Joanis, and George Foster. Coarse split and lump bilingual language models for richer source information in SMT. In Proceedings of the Eleventh Conference of the Association for Machine Translation in the Americas (AMTA), volume 1, pages 28–41. 2014.

Chris Dyer. Using a maximum entropy model to build segmentation lattices for MT. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL '09). Association for Computational Linguistics, Stroudsburg, PA, USA, 406-414. 2009.

Klaus Macherey, Andrew M. Dai, David Talbot, Ashok C. Popat, and Franz Och. Language-independent compound splitting with morphological operations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA, 1395-1404. 2011.

Ilya Sutskever, Oriol Vinyals, Quoc Le. Sequence to Sequence Learning with Neural Networks. NIPS. 2014.

Philipp Koehn, Alexandra Birch and Ralf Steinberger. 462 Machine Translation Systems for Europe, MT Summit XII, 2009.