Jednojazyčné slovní zarovnání
Thesis title in Czech: | Jednojazyčné slovní zarovnání |
---|---|
Thesis title in English: | Monolingual word alignment |
Academic year of topic announcement: | 2012/2013 |
Thesis type: | Bachelor's thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: |
Guidelines |
Úloha slovního zarovnání je prvním krokem strojového překladu nebo extrakce překladových slovníků z vícejazyčných textů. Vstupem pro slovní zarovnání je (velký) soubor dvojic vět, jedna vždy v jednom a druhá přeložená do druhého jazyka. Na výstupu jsou slova z jedné strany spojena se svými překladovými ekvivalenty na druhé straně. Pro účely kombinování více různých systémů strojového překladu nebo pro měření kvality strojového překladu či analýzu chyb by bylo velmi vhodné mít speciální variantu této úlohy upravenou tak, aby k sobě zarovnávala věty a jejich parafráze v rámci jediného jazyka. Také by tato metoda měla fungovat relativně spolehlivě i s menším objemem dat.
Úkolem bakalářské práce je navrhnout a implementovat několik variant jednojazyčného slovního zarovnání a porovnat je z hlediska přesnosti ve srovnání s lidským zarovnáním a případně i z hlediska vlivu na navazující aplikace (kombinace systémů strojového překladu, analýza chyb), budou-li dostupné. |
References |
Ondřej Bojar and Magdalena Prokopová. Czech-English Word Alignment. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC 2006), pages 1236-1239. ELRA, May 2006.
Michael Denkowski and Alon Lavie, "METEOR-NEXT and the METEOR Paraphrase Tables: Improved Evaluation Support For Five Target Languages", Proceedings of the ACL 2010 Joint Workshop on Statistical Machine Translation and Metrics MATR, 2010 http://www.cs.cmu.edu/~alavie/METEOR/ A dále řada metrik pro strojový překlad i systémů pro kombinaci, jak se na ně odkazuje např. článek: Findings of the 2010 Joint Workshop on Statistical Machine Translation and MetricsMATR Chris Callison-Burch, Philipp Koehn, Christof Monz, Kay Peterson, Mark Przybocki and Omar F. Zaidan |