Parafrázování českých vět pro vyhodnocování strojového překladu
Thesis title in Czech: | Parafrázování českých vět pro vyhodnocování strojového překladu |
---|---|
Thesis title in English: | Sentences Paraphrasing for Czech MT Evaluation |
Key words: | parafráze, synset, alternace, strojový překlad |
English key words: | paraphrase, synset, alternation, machine translation |
Academic year of topic announcement: | 2011/2012 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Markéta Lopatková, Ph.D. |
Author: |
Guidelines |
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů, zejména na základě tzv. synsetů, viz Czech WordNet (Pala, Smrž, 2004); pouze synonyma pro daný kontext budou využita. Dále bude systém pracovat se syntaktickými vztahy, a to se změnou slovosledu a dále se vztahy diateze a alternace (Kettnerová, Lopatková, 2009,2010). Získané parafráze budou využity pro vyhodnocení kvality strojového překladu.
K práci je možno využít existující nástroje pro zpracování dat a jejich výstupy (např. morfologie, tagging, parsing; implementace klasifikátorů; výstup strojového překladu) a datové zdroje (korpusy, slovníky, PCEDT, VALLEX, Czech WordNet apod.). |
References |
- Kauchak, D., Barzilay, R.: Paraphrasing for Automatic Evaluation. In Proceedings of the HLT Conference, NAACL, p. 455-462, New York, 2006. ACL
- Madnani, Nitin and Bonnie J. Dorr, "Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods", Computational Linguistics, 36:3, pp. 341--387, 2010 - Pala, K., Smrž, P.: Building Czech Wordnet. Romanian Journal of Information Science and Technology, Romanian Academy, 7, 1-2, pp. 79-88, 2004. - Kettnerová, V., Lopatková, M.: Changes in Valency Structure of Verbs: Grammar vs. Lexicon. In Slovko 2009, NLP, Corpus Linguistics, Corpus Based Grammar Research, Slovenská akadémia vied, Bratislava, Slovakia, p. 198-210, 2009 VALLEX 2.5 http://ufal.mff.cuni.cz/vallex/2.5/doc/home.html Czech WordNet PCEDT dokumentace k použitým nástrojům a datům |
Preliminary scope of work |
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů; dále bude pracovat se syntaktickými vztahy, a to vztahy diateze a alternace. Získané parafráze budou využity pro vyhodnocení kvality strojového překladu. |