Japonsko-český strojový překlad
Název práce v češtině: | Japonsko-český strojový překlad |
---|---|
Název v anglickém jazyce: | Japanese-Czech Machine Translation |
Klíčová slova: | strojový překlad, tektogramatická rovina, japonština-čeština, zpracování přirozeného jazyka |
Klíčová slova anglicky: | machine translation, tectogrammatical layer, Japanese-Czech, natural language processing |
Akademický rok vypsání: | 2012/2013 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 08.11.2012 |
Datum zadání: | 08.11.2012 |
Datum potvrzení stud. oddělením: | 16.11.2012 |
Datum a čas obhajoby: | 16.06.2014 00:00 |
Datum odevzdání elektronické podoby: | 23.05.2014 |
Datum odevzdání tištěné podoby: | 23.05.2014 |
Datum proběhlé obhajoby: | 16.06.2014 |
Oponenti: | Mgr. Martin Popel, Ph.D. |
Zásady pro vypracování |
Úkolem bakalářské práce je sestavit a vyhodnotit systém pro strojový překlad z japonštiny do češtiny. Zvolený jazykový pár je zajímavý zejména typologickou odlišností obou jazyků. Čeština je velmi morfologicky bohatá a strojový překlad do ní musí správně zvolit slovní formy, aby zajistil nejen odpovídající vyjádření vztahů mezi zmiňovanými objekty, ale i příslušné gramatické shody. Japonština sice některé z potřebných aspektů explicitně vyjadřuje pomocí partikulí (zejm. gramatická role ve větě, v češtině vyjadřovaná většinou předložkou a pádem), řadu jich však mluvčí odhadují pouze z kontextu nebo znalosti světa (např. číslo u podstatných jmen). I rozdíly ve slovosledu mezi češtinou a japonštinou jsou zásadní, v japonštině je sloveso téměř vždy na konci věty.
S ohledem na odlišnosti mezi jazyky lze očekávat, že lepší výsledky dosáhne přístup založený na (hloubkovém) rozboru věty, proto i hlavním cílem bakalářské práce je rozvíjet právě tuto metodu. Práce při tom bude v maximální možné míře vycházet z dostupných jazykových zdrojů a nástrojů (existující morfologické i syntaktické analyzátory pro japonštinu a češtinu, generátor českých vět z jejich hloubkového zápisu ap.). Nedílnou součástí práce je však empiricky porovnat tento hloubkový přístup se standardní konfigurací frázového překladu; ten vychází pouze z paralelních textů a strukturu věty zcela ignoruje. |
Seznam odborné literatury |
Ondřej Dušek, Zdeněk Žabokrtský, Martin Popel, Martin Majliš, Michal Novák, and David Mareček: Formemes in English-Czech Deep Syntactic MT. In Proceedings of WMT 2012, Montréal, Canada, June 7–8, 2012, pp. 267–274.
Francis Bond, Stephan Oepen, Eric Nichols, Dan Flickinger, Erik Velldal and Petter Haugereid (2011) Deep Open Source Machine Translation. In Machine Translation 25(2) 87-105 Iwatate Masakazu, Masayuki Asahara, and Yuji Matsumoto. Japanese dependency parsing using a tournament model. In Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, COLING ’08, pages 361–368, Stroudsburg, PA, USA, 2008. Philipp Koehn. Statistical Machine Translation, textbook, Cambridge University Press, 2009. Ondřej Bojar, Bushra Jawaid, and Amir Kamran. Probes in a Taxonomy of Factored Phrase-Based Models. In Proceedings of the Seventh Workshop on Statistical Machine Translation, pages 253–260, Montr ́al, Canada, June 2012. |