Jazykové modelování pro němčinu
Thesis title in Czech: | Jazykové modelování pro němčinu |
---|---|
Thesis title in English: | Language Modelling for German |
Key words: | jazykové modelování, němčina, n-gram, maximální entropie |
English key words: | language modelling, German, n-gram, maximum entropy |
Academic year of topic announcement: | 2012/2013 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 23.10.2012 |
Date of assignment: | 30.10.2012 |
Confirmed by Study dept. on: | 16.11.2012 |
Date and time of defence: | 20.06.2013 00:00 |
Date of electronic submission: | 24.05.2013 |
Date of submission of printed version: | 24.05.2013 |
Date of proceeded defence: | 20.06.2013 |
Opponents: | RNDr. Jiří Hana, Ph.D. |
Guidelines |
Mnoho úloh zpracování přirozeného jazyka, zejména rozpoznávání řeči nebo strojový překlad, potřebuje tzv. jazykový model, tj. program, který umí z vícero návrhů posloupností slov vybrat ty, které vypadají jako pěkné věty. V praxi se nejčastěji používají tzv. n-gramové modely, které sledují jen krátké posloupnosti slov bezprostředně následujících za sebou. Tento přístup úspěšně funguje pro angličtinu, ale např. pro češtinu naráží na bohatost tvarů slov a volnější slovosled. Němčina má kromě gramatické shody (člen a následující jména ap.), velmi produktivní slovotvorby (složeniny) navíc složitý pořádek slov (oddělitelné předpony sloves, způsobová slovesa atd.).
Cílem bakalářské práce je prostudovat specifika jazykového modelování pro němčinu. Konkrétně se práce zaměří na jazykové modely založené na metodě maximální entropie a vyhodnotí jak konfigurace opírající se pouze o n-gramy, tak i několik vlastních variant bohatší množiny rysů sestavené s cílem postihnout německou morfologii a gramatiku. Nedílnou součástí práce je empirické srovnání této metody se standardními n-gramovými modely a to jak z hlediska úspěšnosti predikce (křížová perplexita), tak z hlediska výpočetních nároků. Vhodným rozšířením je evaluace navržených jazykových modelů v komplexu strojového překladu (např. systém Moses nebo Joshua). |
References |
Tanel Alumäe, Mikko Kurimo: Efficient estimation of maximum entropy language models with n-gram features: an SRILM extension. INTERSPEECH 2010: 1820-1823
Teemu Ruokolainen, Tanel Alumäe, Marcus Dobrinkat: Using Dependency Grammar Features in Whole Sentence Maximum Entropy Language Model for Speech Recognition. Baltic HLT 2010: 73-79 Martin Popel, David Mareček: Perplexity of n-gram and Dependency Language Models. In Proceedings of TSD 2010, 13th International Conference on Text, Speech and Dialog, Brno, Czechia, September 8, 2010, pp. 173–180. Alexander Fraser, Marion Weller, Aoife Cahill, Fabienne Cap: Modeling Inflection and Word-Formation in SMT. In Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 664-674. 2012. |