Automatic post-editing of phrase-based machine translation outputs
| Thesis title in Czech: | Automatic post-editing of phrase-based machine translation outputs |
|---|---|
| Thesis title in English: | Automatic post-editing of phrase-based machine translation outputs |
| Key words: | automatická post-editace, strojový překlad, závislostní rozbor, Treex |
| English key words: | automatic post-editing, machine translation, dependency parsing, Treex |
| Academic year of topic announcement: | 2012/2013 |
| Thesis type: | diploma thesis |
| Thesis language: | angličtina |
| Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
| Supervisor: | RNDr. David Mareček, Ph.D. |
| Author: | hidden - assigned and confirmed by the Study Dept. |
| Date of registration: | 24.10.2012 |
| Date of assignment: | 24.10.2012 |
| Confirmed by Study dept. on: | 21.11.2012 |
| Date and time of defence: | 20.05.2013 00:00 |
| Date of electronic submission: | 12.04.2013 |
| Date of submission of printed version: | 12.04.2013 |
| Date of proceeded defence: | 20.05.2013 |
| Opponents: | prof. Ing. Zdeněk Žabokrtský, Ph.D. |
| Guidelines |
| Cílem práce je vytvoření nástroje, který bude automaticky opravovat výstupy frázového strojového překladu z angličtiny do češtiny. Frázové systémy dělají často gramatické chyby například ve shodě podmětu s přísudkem, adjektiva se substantivem nebo ve špatném výběru pádu nebo přeložky u dalších větných členů. Občas nějaké slovo chybí nebo přebývá. Student nejdříve zanalyzuje všechny typy chyb a pak navrhne a implementuje sadu pravidel, která budou umět některé tyto chyby automaticky opravovat. Bude třeba upravit i nástroje pro syntaktickou analýzu vět (parsery, taggery) aby byly robustnější a dokázaly dostatečně dobře analyzovat i negramatickou větu. Práce bude imlementována v prostředí Treex (http://ufal.mff.cuni.cz/treex/). |
| References |
| Michel Simard, Cyril Goutte, and Pierre Isabelle: Statistical phrase-based post-editing. In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, pages 508–515, Rochester, New York, April 2007
Lluís Formiga, Adolfo Hernandez, Jose B. Marino, Enric Monte: Improving English to Spanish Out-of-Domain Translations by Morphology Generalization and Generation. In Proceedings of AMTA 2012 Workshop on Monolingual Machine Translation, 2012 Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan Hajič: Non-projective dependency parsing using spanning tree algorithms. In HLT'05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 523–530, Vancouver, British Columbia, Canada, 2001 Martin Popel, Zdeněk Žabokrtský: TectoMT: Modular NLP Framework. In Proceedings of IceTAL, 7th International Conference on Natural Language Processing, Reykjavík, Iceland, pages 293–304, August 17, 2010 Dokumentace k PDT 2.0, viz http://ufal.mff.cuni.cz/pdt2.0/ |
- assigned and confirmed by the Study Dept.