Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Neural Language Models with Morphology for Machine Translation
Název práce v češtině: Neuronové jazykové modely zohledňující morfologii pro strojový překlad
Název v anglickém jazyce: Neural Language Models with Morphology for Machine Translation
Klíčová slova: jazykový model, neuronové sítě, morfologie
Klíčová slova anglicky: language model, neural network, morphology
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 05.02.2015
Datum zadání: 05.02.2015
Datum potvrzení stud. oddělením: 19.02.2015
Datum a čas obhajoby: 07.09.2017 12:00
Datum odevzdání elektronické podoby:21.07.2017
Datum odevzdání tištěné podoby:21.07.2017
Datum proběhlé obhajoby: 07.09.2017
Oponenti: RNDr. Jana Straková, Ph.D.
 
 
 
Zásady pro vypracování
V poslední době se stále častěji daří ve strojovém překladu nasazovat spojité reprezentace slov a sousloví, typicky implementované pomocí neuronových sítí. Důvodem úspěchu je pravděpodobně větší flexibilita tohoto aparátu při vyhlazování. Dosavadní modely však nadále pracují pouze se slovními formami a veškerá morfologická zobecnění se model učí (nepřesně) sám z dat. Pro řadu jazyků a speciálně pro češtinu jsou přitom k dispozici morfologické slovníky s vynikajícím pokrytím a i automatické morfologické značkování dosahuje dostatečné přesnosti.

Cílem diplomové práce je prostudovat existující jazykové modely založené na neuronových sítích a navrhnout vlastní strukturu neuronové sítě, která bude mít možnost kromě slovních forem explicitně pracovat i s morfologickou informací. Síť může dostávat surové morfologické příznaky, z nichž se např. sama může naučit, kde je žádoucí dodržet tvaroslovnou shodu.

Navržený model může pro jednoduchost předpokládat, že trénovací i vstupní data jsou označkována jednoznačně, jako vhodné rozšíření by však bylo dobré pro lepší robustnost modelu do sítě zahrnout i práci s neurčitostí, s více možnými morfologickými interpretacemi vstupu.

Práce bude empiricky vyhodnocena jak izolovaně (např. perplexitou jazykového modelu), tak v kontextu strojového překladu z angličtiny do češtiny.
Seznam odborné literatury
Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research, 2003.

Ashish Vaswani, Yinggong Zhao, Victoria Fossum, and David Chiang. Decoding with large-scale neural language models improves translation. In EMNLP, pages 1387–1392. Citeseer, 2013.

Paul Baltescu, Phil Blunsom, and Hieu Hoang. Oxlm: A neural language modelling framework for machine translation. The Prague Bulletin of Mathematical Linguistics, 102(1):81–92, 2014.

Devlin, Jacob and Zbib, Rabih and Huang, Zhongqiang and Lamar, Thomas and Schwartz, Richard and Makhoul, John. Fast and Robust Neural Network Joint Models for Statistical Machine Translation. Association for Computational Linguistics. p. 1370--1380 2014 http://aclweb.org/anthology/P14-1129
 
Univerzita Karlova | Informační systém UK