Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Biblické parafrázování
Thesis title in Czech: Biblické parafrázování
Thesis title in English: Biblical paraphrasing
Key words: parafrázování, bible, korpusy textů, synonyma, Word2vec
English key words: paraphrasing, bible, text corpuses, synonyms, Word2vec
Academic year of topic announcement: 2019/2020
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Rudolf Rosa, Ph.D.
Author: Mgr. Ondřej Michálek - assigned and confirmed by the Study Dept.
Date of registration: 13.11.2019
Date of assignment: 12.03.2020
Confirmed by Study dept. on: 23.03.2020
Date and time of defence: 07.07.2020 09:00
Date of electronic submission:04.06.2020
Date of submission of printed version:04.06.2020
Date of proceeded defence: 07.07.2020
Opponents: Mgr. Petra Barančíková
 
 
 
Guidelines
Cílem práce je vytvořit program na biblické parafrázování.

Úlohou, kterou má program řešit, je pokusit se automaticky modernizovat text Bible, tj. parafrázovat text tak, aby přibližně významově odpovídal původnímu textu, ale používal moderní, nebiblické výrazy.

Předpokládá se parafrázování na úrovní jednotlivých slov, tj. nahrazování jednotlivých slov slovy stejného či blízkého významu, která více odpovídají cílovému stylu textu.

Program by měl umožňovat jak natrénování modelu na korpusu textů, tak aplikaci natrénovaného modelu na parafrázování uživatelem zadaného vstupu.

Využít je možné například slovní embedinky pro měření významové podobnosti slov, a nástroj MorphoDiTa pro morfologickou analýzu a generování textu.
References
MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

BOJANOWSKI, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 2017, 5: 135-146.

LEEUWENBERG, Artuur, et al. A minimally supervised approach for synonym extraction with word embeddings. The Prague Bulletin of Mathematical Linguistics, 2016, 105.1: 111-142.

STRAKA, Milan; STRAKOVÁ, Jana. MorphoDiTa: Morphological dictionary and tagger. 2014.

MAYER, Thomas; CYSOUW, Michael. Creating a massively parallel Bible corpus. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). 2014. p. 3158-3163.

AGIĆ, Željko; VULIĆ, Ivan. JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. p. 3204-3210.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html