Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Biblické parafrázování
Název práce v češtině: Biblické parafrázování
Název v anglickém jazyce: Biblical paraphrasing
Klíčová slova: parafrázování, bible, korpusy textů, synonyma, Word2vec
Klíčová slova anglicky: paraphrasing, bible, text corpuses, synonyms, Word2vec
Akademický rok vypsání: 2019/2020
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Rudolf Rosa, Ph.D.
Řešitel: Mgr. Ondřej Michálek - zadáno a potvrzeno stud. odd.
Datum přihlášení: 13.11.2019
Datum zadání: 12.03.2020
Datum potvrzení stud. oddělením: 23.03.2020
Datum a čas obhajoby: 07.07.2020 09:00
Datum odevzdání elektronické podoby:04.06.2020
Datum odevzdání tištěné podoby:04.06.2020
Datum proběhlé obhajoby: 07.07.2020
Oponenti: Mgr. Petra Barančíková
 
 
 
Zásady pro vypracování
Cílem práce je vytvořit program na biblické parafrázování.

Úlohou, kterou má program řešit, je pokusit se automaticky modernizovat text Bible, tj. parafrázovat text tak, aby přibližně významově odpovídal původnímu textu, ale používal moderní, nebiblické výrazy.

Předpokládá se parafrázování na úrovní jednotlivých slov, tj. nahrazování jednotlivých slov slovy stejného či blízkého významu, která více odpovídají cílovému stylu textu.

Program by měl umožňovat jak natrénování modelu na korpusu textů, tak aplikaci natrénovaného modelu na parafrázování uživatelem zadaného vstupu.

Využít je možné například slovní embedinky pro měření významové podobnosti slov, a nástroj MorphoDiTa pro morfologickou analýzu a generování textu.
Seznam odborné literatury
MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

BOJANOWSKI, Piotr, et al. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 2017, 5: 135-146.

LEEUWENBERG, Artuur, et al. A minimally supervised approach for synonym extraction with word embeddings. The Prague Bulletin of Mathematical Linguistics, 2016, 105.1: 111-142.

STRAKA, Milan; STRAKOVÁ, Jana. MorphoDiTa: Morphological dictionary and tagger. 2014.

MAYER, Thomas; CYSOUW, Michael. Creating a massively parallel Bible corpus. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). 2014. p. 3158-3163.

AGIĆ, Željko; VULIĆ, Ivan. JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. p. 3204-3210.
 
Univerzita Karlova | Informační systém UK