Doménová adaptace statistického strojového překladu
Thesis title in Czech: | Doménová adaptace statistického strojového překladu |
---|---|
Thesis title in English: | Domain adaptation of statistical machine translation |
Key words: | statistický strojový překlad, doménová adaptace, podobnost dokumentů |
English key words: | statistical machine translation, domain adaptation, document similarity |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: |
Guidelines |
Statistický strojový překlad je aplikace strojového učení a platí, že optimálně bude fungovat pouze při překladu textů, které jsou podobné těm, na kterých bylo provedeno trénování. Systém trénovaný např. na novinových článcích bude jen obtížně překládat odborné texty z oblasti medicíny nebo ochrany životního prostředí apod. V ideálním případě je tedy nutné pro trénování statistického strojového překladu použít texty ze stejné domény, a to jak paralelní data pro překladové modely, tak monolinguální data pro jazykové modely. V praxi je ovšem dostupnost doménově specifických textů velice omezená. Běžně dostupné jsou většinou jen paralelní korpusy novinových článků či legislativních a jiných dokumentů státní správy, apod. Řešením v této situaci je tzv. doménová adaptace, při kterém se systém natrénovaný na (relativně) obecných (doménově nepříliš vyhraněných) textech adaptuje na konkrétní doménu. Většina metod využívá k doménové adaptaci alespoň malé množství dat z cílové domény, konkretní použití ale mohou být různá.
Cílem diplomové práce je nastudovat, popsat a otestovat existující metody doménová adaptace statistického strojového překladu a případně navrhnout, implementovat a otestovat metodu novou. |
References |
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. ISBN 978-0521874151.
Pavel Pecina, Antonio Toral, Vassilis Papavassiliou, Prokopis Prokopidis, and Josef van Genabith. Domain Adaptation of Statistical Machine Translation using Web-Crawled Resources: A Case Study. In EAMT 2012: Proceedings of the 16th Annual Conference of the European Association for Machine Translation, Trento, Italy, pp. 145-152, 2012. Pavel Pecina, Antonio Toral, Andy Way, Vassilis Papavassiliou, Prokopis Prokopidis, and Maria Giagkou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation. In Mikel L. Forcada, Heidi Depraetere, and Vincent Vandeghinste, editors, Proceedings of the 15th Annual Conference of the European Associtation for Machine Translation, pages 297-304, Leuven, Belgium, 2011. |