Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Doménová adaptace statistického strojového překladu
Název práce v češtině: Doménová adaptace statistického strojového překladu
Název v anglickém jazyce: Domain adaptation of statistical machine translation
Klíčová slova: statistický strojový překlad, doménová adaptace, podobnost dokumentů
Klíčová slova anglicky: statistical machine translation, domain adaptation, document similarity
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
Statistický strojový překlad je aplikace strojového učení a platí, že optimálně bude fungovat pouze při překladu textů, které jsou podobné těm, na kterých bylo provedeno trénování. Systém trénovaný např. na novinových článcích bude jen obtížně překládat odborné texty z oblasti medicíny nebo ochrany životního prostředí apod. V ideálním případě je tedy nutné pro trénování statistického strojového překladu použít texty ze stejné domény, a to jak paralelní data pro překladové modely, tak monolinguální data pro jazykové modely. V praxi je ovšem dostupnost doménově specifických textů velice omezená. Běžně dostupné jsou většinou jen paralelní korpusy novinových článků či legislativních a jiných dokumentů státní správy, apod. Řešením v této situaci je tzv. doménová adaptace, při kterém se systém natrénovaný na (relativně) obecných (doménově nepříliš vyhraněných) textech adaptuje na konkrétní doménu. Většina metod využívá k doménové adaptaci alespoň malé množství dat z cílové domény, konkretní použití ale mohou být různá.

Cílem diplomové práce je nastudovat, popsat a otestovat existující metody doménová adaptace statistického strojového překladu a případně navrhnout, implementovat a otestovat metodu novou.
Seznam odborné literatury
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151.

Pavel Pecina, Antonio Toral, Vassilis Papavassiliou, Prokopis Prokopidis, and Josef van Genabith. Domain Adaptation of Statistical Machine Translation using Web-Crawled Resources: A Case Study. In EAMT 2012: Proceedings of the 16th Annual Conference of the European Association for Machine Translation, Trento, Italy, pp. 145-152, 2012.

Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011.
 
Univerzita Karlova | Informační systém UK