Automatic extraction of the main characters from books and their interactions
Thesis title in Czech: | Automatická extrakce hlavních postav z knihy a jejich interakcí |
---|---|
Thesis title in English: | Automatic extraction of the main characters from books and their interactions |
Key words: | extrakce postav|pojmenované entity|beletrie |
English key words: | extraction of characters|named entities|fiction |
Academic year of topic announcement: | 2021/2022 |
Thesis type: | Bachelor's thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. David Mareček, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 16.02.2021 |
Date of assignment: | 17.02.2022 |
Confirmed by Study dept. on: | 01.03.2022 |
Date and time of defence: | 12.09.2022 09:00 |
Date of electronic submission: | 21.07.2022 |
Date of submission of printed version: | 21.07.2022 |
Date of proceeded defence: | 12.09.2022 |
Opponents: | Mgr. Rudolf Rosa, Ph.D. |
Guidelines |
Cílem práce je vytvořit aplikaci, která na základě vloženého textu/knihy vypíše základní informace o postavách a jejich interakcích v průběhu děje.
Výstupem budou vygenerované grafy, které budou ukazovat výskyt jednotlivých postav v čase a informace o tom, kdo se kdy s kým setkal. Grafy budou proliknované s textem knihy. Kliknutím na dané místo grafu se vždy ukáže dané místo v knize. V práci bude třeba vyřešit několik netriviálních problémů: a) sjednocení jmen postav: po aplikaci vhodného rozpoznávače pojmenovaných entit bude třeba sjednotit jména odpovídající téže postavě, např. "Margareth" - "Meg" - "Mrs. March" b) koreference: často se v textu na postavy odkazuje pouze zájmeny c) rozpoznání, zda jsou dvě postavy spolu nebo se o nich pouze mluví na stejném místě knihy Je zřejmé že tyto problémy nepůjdou vyřešit stoprocentně. V práci budou popsány vyzkoušené metody včetně analýzy chybovosti. |
References |
Hardik Vala, David Jurgens, Andrew Piper, Derek Ruths: Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015 [https://aclanthology.org/D15-1088.pdf]
NameTag, an open-source tool for named entity recognition [https://ufal.mff.cuni.cz/nametag] |