Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatický word alignment
Název práce v češtině: Automatický word alignment
Název v anglickém jazyce: Automatic word alignment
Akademický rok vypsání: 2006/2007
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 09.11.2006
Datum zadání: 09.11.2006
Datum a čas obhajoby: 25.06.2007 00:00
Datum odevzdání elektronické podoby:25.06.2007
Datum proběhlé obhajoby: 25.06.2007
Oponenti: RNDr. Václav Novák, CSc.
 
 
 
Zásady pro vypracování
Word alignment (párování slov) je klíčovou komponentou většiny moderních systémů statistického strojového překladu. Vstupem je věta ve dvou jazycích (např. v češtině a angličtině) a úkolem automaticky spárovat slova v obou jazycích tak, aby se nalezly nejpravděpodobnější překladové ekvivalenty. Jako varianta klasického generativního přístupu (IBM modely) se dnes prosazují i diskriminativní přístupy, které úlohu řeší jako hledání maximálního pokrytí v úplném ohodnoceném bipartitním grafu. Vrcholy grafu jsou tvořeny slovy v jednom a v druhém jazyce, hrany jsou ohodnoceny mírou asociace odhadnutou z trénovacích dat. Řešení projektu bude spočívat: a) v efektivní implementaci algoritmu pro hledání maximálního pokrytí bipartitního grafu, b) v implementaci výpočtu ohodnocení hran bipartitního grafu a c) provedení základních experimentů.
Seznam odborné literatury
Christopher D. Manning, Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing, The MIT Press

Moore, Robert C. 2005. A Discriminative Framework for Bilingual Word Alignment. In Proceedings, Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, Vancouver, British Columbia, pp. 81-88.

B. Taskar, S. Lacoste-Julien, and D. Klein. 2005. A Discriminative Matching Approach to Word Alignment, , Empirical Methods in Natural Language Processing (EMNLP05), Vancouver, British Columbia.
 
Univerzita Karlova | Informační systém UK