Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Jazykové modelování pro němčinu

Thesis title in Czech:	Jazykové modelování pro němčinu
Thesis title in English:	Language Modelling for German
Key words:	jazykové modelování, němčina, n-gram, maximální entropie
English key words:	language modelling, German, n-gram, maximum entropy
Academic year of topic announcement:	2012/2013
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	23.10.2012
Date of assignment:	30.10.2012
Confirmed by Study dept. on:	16.11.2012
Date and time of defence:	20.06.2013 00:00
Date of electronic submission:	24.05.2013
Date of submission of printed version:	24.05.2013
Date of proceeded defence:	20.06.2013
Opponents:	RNDr. Jiří Hana, Ph.D.

Guidelines

Mnoho úloh zpracování přirozeného jazyka, zejména rozpoznávání řeči nebo strojový překlad, potřebuje tzv. jazykový model, tj. program, který umí z vícero návrhů posloupností slov vybrat ty, které vypadají jako pěkné věty. V praxi se nejčastěji používají tzv. n-gramové modely, které sledují jen krátké posloupnosti slov bezprostředně následujících za sebou. Tento přístup úspěšně funguje pro angličtinu, ale např. pro češtinu naráží na bohatost tvarů slov a volnější slovosled. Němčina má kromě gramatické shody (člen a následující jména ap.), velmi produktivní slovotvorby (složeniny) navíc složitý pořádek slov (oddělitelné předpony sloves, způsobová slovesa atd.).

Cílem bakalářské práce je prostudovat specifika jazykového modelování pro němčinu. Konkrétně se práce zaměří na jazykové modely založené na metodě maximální entropie a vyhodnotí jak konfigurace opírající se pouze o n-gramy, tak i několik vlastních variant bohatší množiny rysů sestavené s cílem postihnout německou morfologii a gramatiku. Nedílnou součástí práce je empirické srovnání této metody se standardními n-gramovými modely a to jak z hlediska úspěšnosti predikce (křížová perplexita), tak z hlediska výpočetních nároků.

Vhodným rozšířením je evaluace navržených jazykových modelů v komplexu strojového překladu (např. systém Moses nebo Joshua).

References

Tanel Alumäe, Mikko Kurimo: Efficient estimation of maximum entropy language models with n-gram features: an SRILM extension. INTERSPEECH 2010: 1820-1823

Teemu Ruokolainen, Tanel Alumäe, Marcus Dobrinkat: Using Dependency Grammar Features in Whole Sentence Maximum Entropy Language Model for Speech Recognition. Baltic HLT 2010: 73-79

Martin Popel, David Mareček: Perplexity of n-gram and Dependency Language Models. In Proceedings of TSD 2010, 13th International Conference on Text, Speech and Dialog, Brno, Czechia, September 8, 2010, pp. 173–180.

Alexander Fraser, Marion Weller, Aoife Cahill, Fabienne Cap: Modeling Inflection and Word-Formation in SMT. In Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 664-674. 2012.