Automatický word alignment
Thesis title in Czech: | Automatický word alignment |
---|---|
Thesis title in English: | Automatic word alignment |
Academic year of topic announcement: | 2006/2007 |
Thesis type: | Bachelor's thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 09.11.2006 |
Date of assignment: | 09.11.2006 |
Date and time of defence: | 25.06.2007 00:00 |
Date of electronic submission: | 25.06.2007 |
Date of proceeded defence: | 25.06.2007 |
Opponents: | RNDr. Václav Novák, CSc. |
Guidelines |
Word alignment (párování slov) je klíčovou komponentou většiny moderních systémů statistického strojového překladu. Vstupem je věta ve dvou jazycích (např. v češtině a angličtině) a úkolem automaticky spárovat slova v obou jazycích tak, aby se nalezly nejpravděpodobnější překladové ekvivalenty. Jako varianta klasického generativního přístupu (IBM modely) se dnes prosazují i diskriminativní přístupy, které úlohu řeší jako hledání maximálního pokrytí v úplném ohodnoceném bipartitním grafu. Vrcholy grafu jsou tvořeny slovy v jednom a v druhém jazyce, hrany jsou ohodnoceny mírou asociace odhadnutou z trénovacích dat. Řešení projektu bude spočívat: a) v efektivní implementaci algoritmu pro hledání maximálního pokrytí bipartitního grafu, b) v implementaci výpočtu ohodnocení hran bipartitního grafu a c) provedení základních experimentů. |
References |
Christopher D. Manning, Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing, The MIT Press
Moore, Robert C. 2005. A Discriminative Framework for Bilingual Word Alignment. In Proceedings, Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, Vancouver, British Columbia, pp. 81-88. B. Taskar, S. Lacoste-Julien, and D. Klein. 2005. A Discriminative Matching Approach to Word Alignment, , Empirical Methods in Natural Language Processing (EMNLP05), Vancouver, British Columbia. |