Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Doménová adaptace statistického strojového překladu

Thesis title in Czech:	Doménová adaptace statistického strojového překladu
Thesis title in English:	Domain adaptation of statistical machine translation
Key words:	statistický strojový překlad, doménová adaptace, podobnost dokumentů
English key words:	statistical machine translation, domain adaptation, document similarity
Academic year of topic announcement:	2014/2015
Thesis type:	diploma thesis
Thesis language:
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Pavel Pecina, Ph.D.
Author:

Guidelines

Statistický strojový překlad je aplikace strojového učení a platí, že optimálně bude fungovat pouze při překladu textů, které jsou podobné těm, na kterých bylo provedeno trénování. Systém trénovaný např. na novinových článcích bude jen obtížně překládat odborné texty z oblasti medicíny nebo ochrany životního prostředí apod. V ideálním případě je tedy nutné pro trénování statistického strojového překladu použít texty ze stejné domény, a to jak paralelní data pro překladové modely, tak monolinguální data pro jazykové modely. V praxi je ovšem dostupnost doménově specifických textů velice omezená. Běžně dostupné jsou většinou jen paralelní korpusy novinových článků či legislativních a jiných dokumentů státní správy, apod. Řešením v této situaci je tzv. doménová adaptace, při kterém se systém natrénovaný na (relativně) obecných (doménově nepříliš vyhraněných) textech adaptuje na konkrétní doménu. Většina metod využívá k doménové adaptaci alespoň malé množství dat z cílové domény, konkretní použití ale mohou být různá.

Cílem diplomové práce je nastudovat, popsat a otestovat existující metody doménová adaptace statistického strojového překladu a případně navrhnout, implementovat a otestovat metodu novou.

References

Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151.

Pavel Pecina, Antonio Toral, Vassilis Papavassiliou, Prokopis Prokopidis, and Josef van Genabith. Domain Adaptation of Statistical Machine Translation using Web-Crawled Resources: A Case Study. In EAMT 2012: Proceedings of the 16th Annual Conference of the European Association for Machine Translation, Trento, Italy, pp. 145-152, 2012.

Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011.