Sémantické databáze pro podporu a kontrolu strojového překladu
Název práce v češtině: | Sémantické databáze pro podporu a kontrolu strojového překladu |
---|---|
Název v anglickém jazyce: | Semantic Databases to Support and Check Machine Translation |
Akademický rok vypsání: | 2017/2018 |
Typ práce: | disertační práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Sémantické databáze jako Wikipedie a její formalizované nebo jinak odvozené varianty jako DBpedie nebo Babelnet obsahují cenné informace o konceptech, entitách i vztazích mezi nimi, často v relativně málo strukturované formě. Zdá se, že tyto informace by mělo být možné využít v celé řadě aplikací zpracování přirozeného jazyka, například ve strojovém překladu.
Úkolem disertační práce je studovat strukturu a možnosti formalizace a vytěžení sémantických databází pro některé podúlohy strojového překladu, například: - na straně zdrojového jazyka může být užitečné automaticky vstupním slovům přiřadit formalizované významy z dané databáze (word-sense disambiguation a entity linking), - lidskému překladateli je v rámci nástrojů po podporu překladu možné nabídnout relevantní informace z databáze nebo předem sestavit glosář připravený na míru vstupnímu textu a znalostem překladatele, - vícejazyčné databáze mohou samy nabízet vhodné překladové ekvivalenty, - na cílové straně je možné kontrolovat, zda výrazy, které strojový překladač použil, spolu ladí, tj. je možné zhruba prověřovat, zda cílová věta "dává smysl", - srovnáním zdrojové a cílové strany překladu a propojením se sémantickou databází je možné kontrolovat míru zachování významu. Pro vybrané úlohy budou navrženy plně nebo částečně automatické metody, budou implementovány a empiricky vyhodnoceny. |
Seznam odborné literatury |
Navigli, Roberto. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR) 41.2 (2009): 10.
Moro, Andrea, Alessandro Raganato, and Roberto Navigli. Entity linking meets word sense disambiguation: a unified approach. Transactions of the Association for Computational Linguistics 2 (2014): 231-244. Wong, Billy Tak-Ming. Semantic Evaluation of Machine Translation. LREC. 2010. Carpuat, Marine, and Dekai Wu. Improving Statistical Machine Translation Using Word Sense Disambiguation. EMNLP-CoNLL. Vol. 7. 2007. Bharath Dandala, Rada Mihalcea and Razvan Bunescu. Multilingual Word Sense Disambiguation Using Wikipedia. In Proc. of IJCNLP, pages 498-506. 2013. Rao, Delip, Paul McNamee, and Mark Dredze. Entity linking: Finding extracted entities in a knowledge base. Multi-source, Multilingual Information Extraction and Summarization. Springer Berlin Heidelberg, 2013. 93-115. Navigli, Roberto, and Simone Paolo Ponzetto. BabelNet: Building a very large multilingual semantic network. Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics, 2010. Auer, Sören, et al. Dbpedia: A nucleus for a web of open data. Springer Berlin Heidelberg, 2007. Miller, George A. WordNet: a lexical database for English. Communications of the ACM 38.11 (1995): 39-41. Mihalcea, Rada, and Andras Csomai. Wikify!: linking documents to encyclopedic knowledge. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007. |