Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Ve čtvrtek dne 4. září 2025 v době od 20:00 do 22:00 dojde k odstávce webového prostředí a databáze systému WhoIs. Odstávka systému WhoIs se dotkne též systému IS Studium. Kromě omezení funkcionality související s napojením na WhoIs nebude ve většině případů možné odevzdávání závěrečných prací. Omlouváme se za komplikace a děkujeme všem, kterých se odstávka jakkoliv dotkne, za pochopení.
Doménová závislost překladových slovníků
Thesis title in Czech: Doménová závislost překladových slovníků
Thesis title in English: Domain (In)Dependence of Phrase Translations
Academic year of topic announcement: 2010/2011
Thesis type: school year task
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author:
Guidelines
Cílem ročníkového projektu a navazující bakalářské práce je rozšířit existující nástroje pro extrakci slovníků překladů frází o automatickou identifikaci doménové závislosti dané fráze.

Lze se domnívat, že fráze, které se vyskytnou v mnoha typech textů jsou univerzálnější, a proto důležitější pro obecný překlad bez ohledu na doménu. Velmi specifické fráze naproti tomu přinášejí potřebnou lexikální zásobu pro danou doménu.

Cílem práce je tuto hypotézu experimentálně prověřit. V rámci ročníkového projektu půjde zejména o návrh a implementaci nějaké míry univerzálnosti dané fráze podle výskytů v různých zdrojových textech a implementaci nástroje, který tuto míru nad danými korpusy změří. V rámci bakalářské práce pak bude tato míra nějakým způsobem explicitně použita v experimentech se strojovým překladem.

Téma je vhodné i pro (navazující) diplomovou práci.
References
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/

Ondřej Bojar, Miroslav Janíček, Zdeněk Žabokrtský, Pavel Češka, and Peter Beňa. CzEng 0.7: Parallel Corpus with Community-Supplied Translations. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, May 2008. ELRA.
http://ufal.mff.cuni.cz/czeng/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html