Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Rozdílový valenční slovník pro strojový překlad příbuzných jazyků
Název práce v češtině: Rozdílový valenční slovník pro strojový překlad příbuzných jazyků
Název v anglickém jazyce: Contrastive Valency Dictionary for Machine Translation between Related Languages
Akademický rok vypsání: 2009/2010
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Markéta Lopatková, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 12.11.2009
Datum zadání: 12.11.2009
Konzultanti: doc. RNDr. Vladislav Kuboň, Ph.D.
Zásady pro vypracování
Cílem práce je vytvoření rozdílového valenčního slovníku pro strojový překlad mezi příbuznými jazyky založeného na slovníku českých sloves VALLEX.
Student bude vycházet z existujících paralelních korpusů, existujících překladových slovníků a valenčního slovníku VALLEX. Jeho úkolem bude identifikovat v daných korpusech odpovídající si slovesa a jejich doplnění. Pro daný výskyt slovesa určí možné valenční rámce ve VALLEXu a porovná jejich formy s formami slovesných doplnění v cílovém jazyce. Výstupem práce bude rozdílový slovník obsahující informaci o počtu a formě doplnění v povrchových rámcích slovesa v odpovídajících si lexikálních jednotkách a jejich vzájemné provázání.
K práci je možno využít existující nástroje pro zpracování dat (např. morfologie, tagging, parsing, alignment) a datové zdroje (paralelní korpusy a slovníky dostupné na pracovišti).
Seznam odborné literatury
paralelní korpusy a překladové slovníky (v závislosti na cílovém jazyce)
http://ufal.mff.cuni.cz/umc/
http://www.korpus.cz/intercorp/
http://wt.jrc.it/lt/Acquis/

Lopatková, M., Žabokrtský, Z., Kettnerová, V. et al.: Valenční slovník českých sloves. Univerzita Karlova v Praze, Nakladatelství Karolinum, Praha, 2008.
http://ufal.mff.cuni.cz/vallex/2.5/doc/home.html

dokumentace k použitým nástrojům (morfologická a syntaktická analýza pro češtinu, morfologická analýza pro cílový jazyk, GIZA++, ...)

Spoustová, D., Hajič, J., Votrubec, J., Krbec, P., Květoň, P.: The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In Proceedings of Balto-Slavonic NLP Workshop. ACL, Prague, 2007. pp. 67--74

McDonald, R., Pereira, F., Ribarov, K., Hajič, J.: Non-Projective Dependency Parsing using Spanning Tree Algorithms. In Proceedings of Human Langauge Technology Conference and Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Vancouver, BC, Canada, 2005. pp. 523-530

Och, F.J., Ney, H.: A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, volume 29, number 1, pp. 19-51 March 2003.
Předběžná náplň práce
Cílem práce je vytvoření rozdílového valenční slovníku pro strojový překlad mezi příbuznými jazyky založeného na slovníku českých sloves VALLEX.
Předběžná náplň práce v anglickém jazyce
The goal of the work is to create contrastive valency lexicon for machine translation between related languages based on VALLEX lexicon.
 
Univerzita Karlova | Informační systém UK