Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatic post-editing of phrase-based machine translation outputs
Název práce v češtině: Automatic post-editing of phrase-based machine translation outputs
Název v anglickém jazyce: Automatic post-editing of phrase-based machine translation outputs
Klíčová slova: automatická post-editace, strojový překlad, závislostní rozbor, Treex
Klíčová slova anglicky: automatic post-editing, machine translation, dependency parsing, Treex
Akademický rok vypsání: 2012/2013
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. David Mareček, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 24.10.2012
Datum zadání: 24.10.2012
Datum potvrzení stud. oddělením: 21.11.2012
Datum a čas obhajoby: 20.05.2013 00:00
Datum odevzdání elektronické podoby:12.04.2013
Datum odevzdání tištěné podoby:12.04.2013
Datum proběhlé obhajoby: 20.05.2013
Oponenti: doc. Ing. Zdeněk Žabokrtský, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce je vytvoření nástroje, který bude automaticky opravovat výstupy frázového strojového překladu z angličtiny do češtiny. Frázové systémy dělají často gramatické chyby například ve shodě podmětu s přísudkem, adjektiva se substantivem nebo ve špatném výběru pádu nebo přeložky u dalších větných členů. Občas nějaké slovo chybí nebo přebývá. Student nejdříve zanalyzuje všechny typy chyb a pak navrhne a implementuje sadu pravidel, která budou umět některé tyto chyby automaticky opravovat. Bude třeba upravit i nástroje pro syntaktickou analýzu vět (parsery, taggery) aby byly robustnější a dokázaly dostatečně dobře analyzovat i negramatickou větu. Práce bude imlementována v prostředí Treex (http://ufal.mff.cuni.cz/treex/).
Seznam odborné literatury
Michel Simard, Cyril Goutte, and Pierre Isabelle: Statistical phrase-based post-editing. In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, pages 508–515, Rochester, New York, April 2007

Lluís Formiga, Adolfo Hernandez, Jose B. Marino, Enric Monte: Improving English to Spanish Out-of-Domain Translations by Morphology Generalization and Generation. In Proceedings of AMTA 2012 Workshop on Monolingual Machine Translation, 2012

Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan Hajič: Non-projective dependency parsing using spanning tree algorithms. In HLT'05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 523–530, Vancouver, British Columbia, Canada, 2001

Martin Popel, Zdeněk Žabokrtský: TectoMT: Modular NLP Framework. In Proceedings of IceTAL, 7th International Conference on Natural Language Processing, Reykjavík, Iceland, pages 293–304, August 17, 2010

Dokumentace k PDT 2.0, viz http://ufal.mff.cuni.cz/pdt2.0/
 
Univerzita Karlova | Informační systém UK