Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Parafrázování českých vět pro vyhodnocování strojového překladu
Thesis title in Czech: Parafrázování českých vět pro vyhodnocování strojového překladu
Thesis title in English: Sentences Paraphrasing for Czech MT Evaluation
Key words: parafráze, synset, alternace, strojový překlad
English key words: paraphrase, synset, alternation, machine translation
Academic year of topic announcement: 2011/2012
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Markéta Lopatková, Ph.D.
Author:
Guidelines
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů, zejména na základě tzv. synsetů, viz Czech WordNet (Pala, Smrž, 2004); pouze synonyma pro daný kontext budou využita. Dále bude systém pracovat se syntaktickými vztahy, a to se změnou slovosledu a dále se vztahy diateze a alternace (Kettnerová, Lopatková, 2009,2010). Získané parafráze budou využity pro vyhodnocení kvality strojového překladu.
K práci je možno využít existující nástroje pro zpracování dat a jejich výstupy (např. morfologie, tagging, parsing; implementace klasifikátorů; výstup strojového překladu) a datové zdroje (korpusy, slovníky, PCEDT, VALLEX, Czech WordNet apod.).
References
- Kauchak, D., Barzilay, R.: Paraphrasing for Automatic Evaluation. In Proceedings of the HLT Conference, NAACL, p. 455-462, New York, 2006. ACL
- Madnani, Nitin and Bonnie J. Dorr, "Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods", Computational Linguistics, 36:3, pp. 341--387, 2010
- Pala, K., Smrž, P.: Building Czech Wordnet. Romanian Journal of Information Science and Technology, Romanian Academy, 7, 1-2, pp. 79-88, 2004.
- Kettnerová, V., Lopatková, M.: Changes in Valency Structure of Verbs: Grammar vs. Lexicon. In Slovko 2009, NLP, Corpus Linguistics, Corpus Based Grammar Research, Slovenská akadémia vied, Bratislava, Slovakia, p. 198-210, 2009

VALLEX 2.5 http://ufal.mff.cuni.cz/vallex/2.5/doc/home.html
Czech WordNet
PCEDT

dokumentace k použitým nástrojům a datům
Preliminary scope of work
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů; dále bude pracovat se syntaktickými vztahy, a to vztahy diateze a alternace. Získané parafráze budou využity pro vyhodnocení kvality strojového překladu.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html