Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Japonsko-český strojový překlad

Název práce v češtině:	Japonsko-český strojový překlad
Název v anglickém jazyce:	Japanese-Czech Machine Translation
Klíčová slova:	strojový překlad, tektogramatická rovina, japonština-čeština, zpracování přirozeného jazyka
Klíčová slova anglicky:	machine translation, tectogrammatical layer, Japanese-Czech, natural language processing
Akademický rok vypsání:	2012/2013
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	08.11.2012
Datum zadání:	08.11.2012
Datum potvrzení stud. oddělením:	16.11.2012
Datum a čas obhajoby:	16.06.2014 00:00
Datum odevzdání elektronické podoby:	23.05.2014
Datum odevzdání tištěné podoby:	23.05.2014
Datum proběhlé obhajoby:	16.06.2014
Oponenti:	Mgr. Martin Popel, Ph.D.

Zásady pro vypracování

Úkolem bakalářské práce je sestavit a vyhodnotit systém pro strojový překlad z japonštiny do češtiny. Zvolený jazykový pár je zajímavý zejména typologickou odlišností obou jazyků. Čeština je velmi morfologicky bohatá a strojový překlad do ní musí správně zvolit slovní formy, aby zajistil nejen odpovídající vyjádření vztahů mezi zmiňovanými objekty, ale i příslušné gramatické shody. Japonština sice některé z potřebných aspektů explicitně vyjadřuje pomocí partikulí (zejm. gramatická role ve větě, v češtině vyjadřovaná většinou předložkou a pádem), řadu jich však mluvčí odhadují pouze z kontextu nebo znalosti světa (např. číslo u podstatných jmen). I rozdíly ve slovosledu mezi češtinou a japonštinou jsou zásadní, v japonštině je sloveso téměř vždy na konci věty.

S ohledem na odlišnosti mezi jazyky lze očekávat, že lepší výsledky dosáhne přístup založený na (hloubkovém) rozboru věty, proto i hlavním cílem bakalářské práce je rozvíjet právě tuto metodu. Práce při tom bude v maximální možné míře vycházet z dostupných jazykových zdrojů a nástrojů (existující morfologické i syntaktické analyzátory pro japonštinu a češtinu, generátor českých vět z jejich hloubkového zápisu ap.). Nedílnou součástí práce je však empiricky porovnat tento hloubkový přístup se standardní konfigurací frázového překladu; ten vychází pouze z paralelních textů a strukturu věty zcela ignoruje.

Seznam odborné literatury

Ondřej Dušek, Zdeněk Žabokrtský, Martin Popel, Martin Majliš, Michal Novák, and David Mareček: Formemes in English-Czech Deep Syntactic MT. In Proceedings of WMT 2012, Montréal, Canada, June 7–8, 2012, pp. 267–274.

Francis Bond, Stephan Oepen, Eric Nichols, Dan Flickinger, Erik Velldal and Petter Haugereid (2011) Deep Open Source Machine Translation. In Machine Translation 25(2) 87-105

Iwatate Masakazu, Masayuki Asahara, and Yuji Matsumoto. Japanese dependency parsing using a tournament model. In Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, COLING ’08, pages 361–368, Stroudsburg, PA, USA, 2008.

Philipp Koehn. Statistical Machine Translation, textbook, Cambridge University Press, 2009.

Ondřej Bojar, Bushra Jawaid, and Amir Kamran. Probes in a Taxonomy of Factored Phrase-Based Models. In Proceedings of the Seventh Workshop on Statistical Machine Translation, pages 253–260, Montr ́al, Canada, June 2012.