Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Doménová filtrace pro strojový překlad
Název práce v češtině: Doménová filtrace pro strojový překlad
Název v anglickém jazyce: Domain Filtering for Machine Translation
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 11.11.2011
Datum zadání: 11.11.2011
Datum potvrzení stud. oddělením: 20.04.2012
Zásady pro vypracování
Kvalita statistického strojového překladu velmi závisí na dostupnosti trénovacích textů daného typu. Přitom platí, že i data mimo doménu celkovou kvalitu zlepšují. V praxi vznikají velké paralelní korpusy s větší či menší vnitřní granularitou podle typu textu, v některých případech typ textu ani explicitně uveden není. Pro konkrétní vstupní data by bylo užitečné z trénovacích dat vybrat a v překladu upřednostnit takové dvojice vět, které doménou odpovídají.

Cílem diplomové práce je navrhnout, implementovat a vyhodnotit několik metod filtrace paralelních trénovacích dat podle domény překládaného textu. Metody filtrace se přitom budou lišit podle toho, jestli v požadované doméně máme k dispozici jen zdrojové texty nebo i (velmi malou) ukázku paralelních textů.

Filtrovaná a úplná trénovací data je pak v rámci překladového systému možné spojovat různými způsoby. Vhodným rozšířením práce je prozkoumat i několik variant této kombinace. Zajímavá otázka, která však přesahuje povinný rámec práce, je úloha okamžité adaptace systému pro izolovanou vstupní větu.

Úspěšnost navržených metod bude vyhodnocena standardními automatickými metrikami kvality strojového překladu pro několik ukázkových cílových domén. Jako data lze použít paralelní česko-anglický korpus CzEng, který hrubé dělení na domény obsahuje, nebo též výběr z mnohojazyčných korpusů z různých zdrojů dostupný v kolekci OPUS.
Seznam odborné literatury
Philipp Koehn, Josh Schroeder. Experiments in Domain Adaptation for Statistical Machine Translation. In Proceedings of the Second Workshop on Statistical Machine Translation, ACL. 2007.

Haque, R. and Naskar, S.K. and Van Genabith, J. and Way, A. Experiments on Domain Adaptation for English—Hindi SMT. In Proceedings of PACLIC. 2009.

Banerjee, Pratyush and Du, Jinhua and Li, Baoli and Kumar Naskar, Sudip and Way, Andy and van Genabith, Josef. Combining multi-domain statistical machine translation models using automatic classifiers. In: AMTA 2010 - 9th Conference of the Association for Machine Translation in the Americas. 2010.

Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008.

Jörg Tiedemann. News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces.
In N. Nicolov and K. Bontcheva and G. Angelova and R. Mitkov (eds.) Recent Advances in Natural Language Processing (vol V), pages 237-248, John Benjamins, Amsterdam/Philadelphia. 2009.
 
Univerzita Karlova | Informační systém UK