Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Japonsko-český strojový překlad

Thesis title in Czech:	Japonsko-český strojový překlad
Thesis title in English:	Japanese-Czech Machine Translation
Key words:	strojový překlad, tektogramatická rovina, japonština-čeština, zpracování přirozeného jazyka
English key words:	machine translation, tectogrammatical layer, Japanese-Czech, natural language processing
Academic year of topic announcement:	2012/2013
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	08.11.2012
Date of assignment:	08.11.2012
Confirmed by Study dept. on:	16.11.2012
Date and time of defence:	16.06.2014 00:00
Date of electronic submission:	23.05.2014
Date of submission of printed version:	23.05.2014
Date of proceeded defence:	16.06.2014
Opponents:	Mgr. Martin Popel, Ph.D.

Guidelines

Úkolem bakalářské práce je sestavit a vyhodnotit systém pro strojový překlad z japonštiny do češtiny. Zvolený jazykový pár je zajímavý zejména typologickou odlišností obou jazyků. Čeština je velmi morfologicky bohatá a strojový překlad do ní musí správně zvolit slovní formy, aby zajistil nejen odpovídající vyjádření vztahů mezi zmiňovanými objekty, ale i příslušné gramatické shody. Japonština sice některé z potřebných aspektů explicitně vyjadřuje pomocí partikulí (zejm. gramatická role ve větě, v češtině vyjadřovaná většinou předložkou a pádem), řadu jich však mluvčí odhadují pouze z kontextu nebo znalosti světa (např. číslo u podstatných jmen). I rozdíly ve slovosledu mezi češtinou a japonštinou jsou zásadní, v japonštině je sloveso téměř vždy na konci věty.

S ohledem na odlišnosti mezi jazyky lze očekávat, že lepší výsledky dosáhne přístup založený na (hloubkovém) rozboru věty, proto i hlavním cílem bakalářské práce je rozvíjet právě tuto metodu. Práce při tom bude v maximální možné míře vycházet z dostupných jazykových zdrojů a nástrojů (existující morfologické i syntaktické analyzátory pro japonštinu a češtinu, generátor českých vět z jejich hloubkového zápisu ap.). Nedílnou součástí práce je však empiricky porovnat tento hloubkový přístup se standardní konfigurací frázového překladu; ten vychází pouze z paralelních textů a strukturu věty zcela ignoruje.

References

Ondřej Dušek, Zdeněk Žabokrtský, Martin Popel, Martin Majliš, Michal Novák, and David Mareček: Formemes in English-Czech Deep Syntactic MT. In Proceedings of WMT 2012, Montréal, Canada, June 7–8, 2012, pp. 267–274.

Francis Bond, Stephan Oepen, Eric Nichols, Dan Flickinger, Erik Velldal and Petter Haugereid (2011) Deep Open Source Machine Translation. In Machine Translation 25(2) 87-105

Iwatate Masakazu, Masayuki Asahara, and Yuji Matsumoto. Japanese dependency parsing using a tournament model. In Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, COLING ’08, pages 361–368, Stroudsburg, PA, USA, 2008.

Philipp Koehn. Statistical Machine Translation, textbook, Cambridge University Press, 2009.

Ondřej Bojar, Bushra Jawaid, and Amir Kamran. Probes in a Taxonomy of Factored Phrase-Based Models. In Proceedings of the Seventh Workshop on Statistical Machine Translation, pages 253–260, Montr ́al, Canada, June 2012.