Thesis (Selection of subject)Thesis (Selection of subject)(version: 266)
Assignment details
   Login via CAS
Automatic post-editing of phrase-based machine translation outputs
Thesis title in Czech: Automatic post-editing of phrase-based machine translation outputs
Thesis title in English: Automatic post-editing of phrase-based machine translation outputs
Key words: automatická post-editace, strojový překlad, závislostní rozbor, Treex
English key words: automatic post-editing, machine translation, dependency parsing, Treex
Academic year of topic announcement: 2012/2013
Type of assignment: diploma thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. David Mareček, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 24.10.2012
Date of assignment: 24.10.2012
Confirmed by Study dept. on: 21.11.2012
Date and time of defence: 20.05.2013 00:00
Date of electronic submission:12.04.2013
Date of submission of printed version:12.04.2013
Date of proceeded defence: 20.05.2013
Reviewers: doc. Ing. Zdeněk Žabokrtský, Ph.D.
 
 
 
Guidelines
Cílem práce je vytvoření nástroje, který bude automaticky opravovat výstupy frázového strojového překladu z angličtiny do češtiny. Frázové systémy dělají často gramatické chyby například ve shodě podmětu s přísudkem, adjektiva se substantivem nebo ve špatném výběru pádu nebo přeložky u dalších větných členů. Občas nějaké slovo chybí nebo přebývá. Student nejdříve zanalyzuje všechny typy chyb a pak navrhne a implementuje sadu pravidel, která budou umět některé tyto chyby automaticky opravovat. Bude třeba upravit i nástroje pro syntaktickou analýzu vět (parsery, taggery) aby byly robustnější a dokázaly dostatečně dobře analyzovat i negramatickou větu. Práce bude imlementována v prostředí Treex (http://ufal.mff.cuni.cz/treex/).
References
Michel Simard, Cyril Goutte, and Pierre Isabelle: Statistical phrase-based post-editing. In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, pages 508–515, Rochester, New York, April 2007

Lluís Formiga, Adolfo Hernandez, Jose B. Marino, Enric Monte: Improving English to Spanish Out-of-Domain Translations by Morphology Generalization and Generation. In Proceedings of AMTA 2012 Workshop on Monolingual Machine Translation, 2012

Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan Hajič: Non-projective dependency parsing using spanning tree algorithms. In HLT'05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 523–530, Vancouver, British Columbia, Canada, 2001

Martin Popel, Zdeněk Žabokrtský: TectoMT: Modular NLP Framework. In Proceedings of IceTAL, 7th International Conference on Natural Language Processing, Reykjavík, Iceland, pages 293–304, August 17, 2010

Dokumentace k PDT 2.0, viz http://ufal.mff.cuni.cz/pdt2.0/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html