Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Pojmenované entity ve statistickém strojovém překladu
Thesis title in Czech: Pojmenované entity ve statistickém strojovém překladu
Thesis title in English: Named entities in statistical machine translation
Key words: pojmenované entity, statistický strojový překlad
English key words: named entities, statistical machine translation
Academic year of topic announcement: 2014/2015
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Pavel Pecina, Ph.D.
Author:
Guidelines
Pojmenované entity jsou jedno či víceslovná slovní spojení označující nějakou entitu, např. osobu, instituci, produkt, ale také např. číselný údaj (cenu, čas, datum), adresu (klasickou poštovní nebo elektronickou) apod. Identifikace pojmenovaných entit v textu je tradiční úloha komputační lingvistiky a většina metod, které ji řeší, je založena na značkování (tagging, sequence labeling), případně v kombinaci s ručně psanými pravidly.

V překladu mají pojmenované entity zvláštní postavení — buď se nepřekládají vůbec (např. označení/typ nějakého výrobku), nebo je nutné je lokalizovat dle zvyklostí v cílovém jazyce/zemi (zápis časových údajů), případně překládat dle slovníku jako celky (nikoliv po částech). Pojmenované entity navíc způsobují velice závažný problém tzv. řídkosti dat (data sparsity). Zatímco běžná slova mají tendenci se opakovat dle Zipfova zákona, u pojmenovaných entit je distribuce výskytu výrazně plošší a neznámých slov (out-of-vocabulary words) více.

Tradiční metody statistického strojového překladu pojmenované entity většinou ignorují a zacházejí s nimi jako s běžnými slovy. Cílem této diplomové práce je navrhnout, implementovat a evaluovat modifikace frázového statistického strojového překladu , které budou využívat znalostí o pojmenovaných entitách ke zlepšení kvality překladu, a to zejména ve dvou směrech: a) redukce řídkosti dat nahrazením pojmenovaných entit meta-slovy a b) následný překlad pojmenovaných entit pomocí pravidel či zvláštního slovníku.
References
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. 2007

Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html