Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Parafrázování českých vět pro vyhodnocování strojového překladu
Název práce v češtině: Parafrázování českých vět pro vyhodnocování strojového překladu
Název v anglickém jazyce: Sentences Paraphrasing for Czech MT Evaluation
Klíčová slova: parafráze, synset, alternace, strojový překlad
Klíčová slova anglicky: paraphrase, synset, alternation, machine translation
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Markéta Lopatková, Ph.D.
Řešitel:
Zásady pro vypracování
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů, zejména na základě tzv. synsetů, viz Czech WordNet (Pala, Smrž, 2004); pouze synonyma pro daný kontext budou využita. Dále bude systém pracovat se syntaktickými vztahy, a to se změnou slovosledu a dále se vztahy diateze a alternace (Kettnerová, Lopatková, 2009,2010). Získané parafráze budou využity pro vyhodnocení kvality strojového překladu.
K práci je možno využít existující nástroje pro zpracování dat a jejich výstupy (např. morfologie, tagging, parsing; implementace klasifikátorů; výstup strojového překladu) a datové zdroje (korpusy, slovníky, PCEDT, VALLEX, Czech WordNet apod.).
Seznam odborné literatury
- Kauchak, D., Barzilay, R.: Paraphrasing for Automatic Evaluation. In Proceedings of the HLT Conference, NAACL, p. 455-462, New York, 2006. ACL
- Madnani, Nitin and Bonnie J. Dorr, "Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods", Computational Linguistics, 36:3, pp. 341--387, 2010
- Pala, K., Smrž, P.: Building Czech Wordnet. Romanian Journal of Information Science and Technology, Romanian Academy, 7, 1-2, pp. 79-88, 2004.
- Kettnerová, V., Lopatková, M.: Changes in Valency Structure of Verbs: Grammar vs. Lexicon. In Slovko 2009, NLP, Corpus Linguistics, Corpus Based Grammar Research, Slovenská akadémia vied, Bratislava, Slovakia, p. 198-210, 2009

VALLEX 2.5 http://ufal.mff.cuni.cz/vallex/2.5/doc/home.html
Czech WordNet
PCEDT

dokumentace k použitým nástrojům a datům
Předběžná náplň práce
Cílem práce je návrh a implementace systému, který pro českou větu z referenčního překladu vytvoří její parafrázi blízkou výstupu strojového překladu. Systém bude založen na využití lexikálních vztahů; dále bude pracovat se syntaktickými vztahy, a to vztahy diateze a alternace. Získané parafráze budou využity pro vyhodnocení kvality strojového překladu.
 
Univerzita Karlova | Informační systém UK