![]() | Ve čtvrtek dne 4. září 2025 v době od 20:00 do 22:00 dojde k odstávce webového prostředí a databáze systému WhoIs. Odstávka systému WhoIs se dotkne též systému IS Studium. Kromě omezení funkcionality související s napojením na WhoIs nebude ve většině případů možné odevzdávání závěrečných prací. Omlouváme se za komplikace a děkujeme všem, kterých se odstávka jakkoliv dotkne, za pochopení. |
Doménová závislost překladových slovníků
Thesis title in Czech: | Doménová závislost překladových slovníků |
---|---|
Thesis title in English: | Domain (In)Dependence of Phrase Translations |
Academic year of topic announcement: | 2010/2011 |
Thesis type: | school year task |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: |
Guidelines |
Cílem ročníkového projektu a navazující bakalářské práce je rozšířit existující nástroje pro extrakci slovníků překladů frází o automatickou identifikaci doménové závislosti dané fráze.
Lze se domnívat, že fráze, které se vyskytnou v mnoha typech textů jsou univerzálnější, a proto důležitější pro obecný překlad bez ohledu na doménu. Velmi specifické fráze naproti tomu přinášejí potřebnou lexikální zásobu pro danou doménu. Cílem práce je tuto hypotézu experimentálně prověřit. V rámci ročníkového projektu půjde zejména o návrh a implementaci nějaké míry univerzálnosti dané fráze podle výskytů v různých zdrojových textech a implementaci nástroje, který tuto míru nad danými korpusy změří. V rámci bakalářské práce pak bude tato míra nějakým způsobem explicitně použita v experimentech se strojovým překladem. Téma je vhodné i pro (navazující) diplomovou práci. |
References |
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/ Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008. ELRA. http://ufal.mff.cuni.cz/czeng/ |