Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatic extraction of the main characters from books and their interactions
Thesis title in Czech: Automatická extrakce hlavních postav z knihy a jejich interakcí
Thesis title in English: Automatic extraction of the main characters from books and their interactions
Key words: extrakce postav|pojmenované entity|beletrie
English key words: extraction of characters|named entities|fiction
Academic year of topic announcement: 2021/2022
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. David Mareček, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 16.02.2021
Date of assignment: 17.02.2022
Confirmed by Study dept. on: 01.03.2022
Date and time of defence: 12.09.2022 09:00
Date of electronic submission:21.07.2022
Date of submission of printed version:21.07.2022
Date of proceeded defence: 12.09.2022
Opponents: Mgr. Rudolf Rosa, Ph.D.
 
 
 
Guidelines
Cílem práce je vytvořit aplikaci, která na základě vloženého textu/knihy vypíše základní informace o postavách a jejich interakcích v průběhu děje.
Výstupem budou vygenerované grafy, které budou ukazovat výskyt jednotlivých postav v čase a informace o tom, kdo se kdy s kým setkal. Grafy budou proliknované s textem knihy. Kliknutím na dané místo grafu se vždy ukáže dané místo v knize.

V práci bude třeba vyřešit několik netriviálních problémů:
a) sjednocení jmen postav: po aplikaci vhodného rozpoznávače pojmenovaných entit bude třeba sjednotit jména odpovídající téže postavě, např. "Margareth" - "Meg" - "Mrs. March"
b) koreference: často se v textu na postavy odkazuje pouze zájmeny
c) rozpoznání, zda jsou dvě postavy spolu nebo se o nich pouze mluví na stejném místě knihy

Je zřejmé že tyto problémy nepůjdou vyřešit stoprocentně. V práci budou popsány vyzkoušené metody včetně analýzy chybovosti.
References
Hardik Vala, David Jurgens, Andrew Piper, Derek Ruths: Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015 [https://aclanthology.org/D15-1088.pdf]
NameTag, an open-source tool for named entity recognition [https://ufal.mff.cuni.cz/nametag]
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html