Parafrázování českých vět pro vyhodnocování strojového překladu
Název práce v češtině: | Parafrázování českých vět pro vyhodnocování strojového překladu |
---|---|
Název v anglickém jazyce: | Sentences Paraphrasing for Czech MT Evaluation |
Klíčová slova: | parafráze, synset, alternace, strojový překlad |
Klíčová slova anglicky: | paraphrase, synset, alternation, machine translation |
Akademický rok vypsání: | 2011/2012 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Markéta Lopatková, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů, zejména na základě tzv. synsetů, viz Czech WordNet (Pala, Smrž, 2004); pouze synonyma pro daný kontext budou využita. Dále bude systém pracovat se syntaktickými vztahy, a to se změnou slovosledu a dále se vztahy diateze a alternace (Kettnerová, Lopatková, 2009,2010). Získané parafráze budou využity pro vyhodnocení kvality strojového překladu.
K práci je možno využít existující nástroje pro zpracování dat a jejich výstupy (např. morfologie, tagging, parsing; implementace klasifikátorů; výstup strojového překladu) a datové zdroje (korpusy, slovníky, PCEDT, VALLEX, Czech WordNet apod.). |
Seznam odborné literatury |
- Kauchak, D., Barzilay, R.: Paraphrasing for Automatic Evaluation. In Proceedings of the HLT Conference, NAACL, p. 455-462, New York, 2006. ACL
- Madnani, Nitin and Bonnie J. Dorr, "Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods", Computational Linguistics, 36:3, pp. 341--387, 2010 - Pala, K., Smrž, P.: Building Czech Wordnet. Romanian Journal of Information Science and Technology, Romanian Academy, 7, 1-2, pp. 79-88, 2004. - Kettnerová, V., Lopatková, M.: Changes in Valency Structure of Verbs: Grammar vs. Lexicon. In Slovko 2009, NLP, Corpus Linguistics, Corpus Based Grammar Research, Slovenská akadémia vied, Bratislava, Slovakia, p. 198-210, 2009 VALLEX 2.5 http://ufal.mff.cuni.cz/vallex/2.5/doc/home.html Czech WordNet PCEDT dokumentace k použitým nástrojům a datům |
Předběžná náplň práce |
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů; dále bude pracovat se syntaktickými vztahy, a to vztahy diateze a alternace. Získané parafráze budou využity pro vyhodnocení kvality strojového překladu. |