Automatic post-editing of phrase-based machine translation outputs
Název práce v češtině: | Automatic post-editing of phrase-based machine translation outputs |
---|---|
Název v anglickém jazyce: | Automatic post-editing of phrase-based machine translation outputs |
Klíčová slova: | automatická post-editace, strojový překlad, závislostní rozbor, Treex |
Klíčová slova anglicky: | automatic post-editing, machine translation, dependency parsing, Treex |
Akademický rok vypsání: | 2012/2013 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. David Mareček, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 24.10.2012 |
Datum zadání: | 24.10.2012 |
Datum potvrzení stud. oddělením: | 21.11.2012 |
Datum a čas obhajoby: | 20.05.2013 00:00 |
Datum odevzdání elektronické podoby: | 12.04.2013 |
Datum odevzdání tištěné podoby: | 12.04.2013 |
Datum proběhlé obhajoby: | 20.05.2013 |
Oponenti: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Zásady pro vypracování |
Cílem práce je vytvoření nástroje, který bude automaticky opravovat výstupy frázového strojového překladu z angličtiny do češtiny. Frázové systémy dělají často gramatické chyby například ve shodě podmětu s přísudkem, adjektiva se substantivem nebo ve špatném výběru pádu nebo přeložky u dalších větných členů. Občas nějaké slovo chybí nebo přebývá. Student nejdříve zanalyzuje všechny typy chyb a pak navrhne a implementuje sadu pravidel, která budou umět některé tyto chyby automaticky opravovat. Bude třeba upravit i nástroje pro syntaktickou analýzu vět (parsery, taggery) aby byly robustnější a dokázaly dostatečně dobře analyzovat i negramatickou větu. Práce bude imlementována v prostředí Treex (http://ufal.mff.cuni.cz/treex/). |
Seznam odborné literatury |
Michel Simard, Cyril Goutte, and Pierre Isabelle: Statistical phrase-based post-editing. In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, pages 508–515, Rochester, New York, April 2007
Lluís Formiga, Adolfo Hernandez, Jose B. Marino, Enric Monte: Improving English to Spanish Out-of-Domain Translations by Morphology Generalization and Generation. In Proceedings of AMTA 2012 Workshop on Monolingual Machine Translation, 2012 Ryan McDonald, Fernando Pereira, Kiril Ribarov, and Jan Hajič: Non-projective dependency parsing using spanning tree algorithms. In HLT'05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 523–530, Vancouver, British Columbia, Canada, 2001 Martin Popel, Zdeněk Žabokrtský: TectoMT: Modular NLP Framework. In Proceedings of IceTAL, 7th International Conference on Natural Language Processing, Reykjavík, Iceland, pages 293–304, August 17, 2010 Dokumentace k PDT 2.0, viz http://ufal.mff.cuni.cz/pdt2.0/ |