Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Pojmenované entity ve statistickém strojovém překladu
Název práce v češtině: Pojmenované entity ve statistickém strojovém překladu
Název v anglickém jazyce: Named entities in statistical machine translation
Klíčová slova: pojmenované entity, statistický strojový překlad
Klíčová slova anglicky: named entities, statistical machine translation
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
Pojmenované entity jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.

V překladu mají pojmenované entity zvláštní postavení — buď se nepřekládají vůbec (např. označení/typ nějakého výrobku), nebo je nutné je lokalizovat dle zvyklostí v cílovém jazyce/zemi (zápis časových údajů), případně překládat dle slovníku jako celky (nikoliv po částech). Pojmenované entity navíc způsobují velice závažný problém tzv. řídkosti dat (data sparsity). Zatímco běžná slova mají tendenci se opakovat dle Zipfova zákona, u pojmenovaných entit je distribuce výskytu výrazně plošší a neznámých slov (out-of-vocabulary words) více.

Tradiční metody statistického strojového překladu pojmenované entity většinou ignorují a zacházejí s nimi jako s běžnými slovy. Cílem této diplomové práce je navrhnout, implementovat a evaluovat modifikace frázového statistického strojového překladu , které budou využívat znalostí o pojmenovaných entitách ke zlepšení kvality překladu, a to zejména ve dvou směrech: a) redukce řídkosti dat nahrazením pojmenovaných entit meta-slovy a b) následný překlad pojmenovaných entit pomocí pravidel či zvláštního slovníku.
Seznam odborné literatury
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. 2007

Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010.
 
Univerzita Karlova | Informační systém UK