Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatic extraction of the main characters from books and their interactions
Název práce v češtině: Automatická extrakce hlavních postav z knihy a jejich interakcí
Název v anglickém jazyce: Automatic extraction of the main characters from books and their interactions
Klíčová slova: extrakce postav|pojmenované entity|beletrie
Klíčová slova anglicky: extraction of characters|named entities|fiction
Akademický rok vypsání: 2021/2022
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. David Mareček, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 16.02.2021
Datum zadání: 17.02.2022
Datum potvrzení stud. oddělením: 01.03.2022
Datum a čas obhajoby: 12.09.2022 09:00
Datum odevzdání elektronické podoby:21.07.2022
Datum odevzdání tištěné podoby:21.07.2022
Datum proběhlé obhajoby: 12.09.2022
Oponenti: Mgr. Rudolf Rosa, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce je vytvořit aplikaci, která na základě vloženého textu/knihy vypíše základní informace o postavách a jejich interakcích v průběhu děje.
Výstupem budou vygenerované grafy, které budou ukazovat výskyt jednotlivých postav v čase a informace o tom, kdo se kdy s kým setkal. Grafy budou proliknované s textem knihy. Kliknutím na dané místo grafu se vždy ukáže dané místo v knize.

V práci bude třeba vyřešit několik netriviálních problémů:
a) sjednocení jmen postav: po aplikaci vhodného rozpoznávače pojmenovaných entit bude třeba sjednotit jména odpovídající téže postavě, např. "Margareth" - "Meg" - "Mrs. March"
b) koreference: často se v textu na postavy odkazuje pouze zájmeny
c) rozpoznání, zda jsou dvě postavy spolu nebo se o nich pouze mluví na stejném místě knihy

Je zřejmé že tyto problémy nepůjdou vyřešit stoprocentně. V práci budou popsány vyzkoušené metody včetně analýzy chybovosti.
Seznam odborné literatury
Hardik Vala, David Jurgens, Andrew Piper, Derek Ruths: Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015 [https://aclanthology.org/D15-1088.pdf]
NameTag, an open-source tool for named entity recognition [https://ufal.mff.cuni.cz/nametag]
 
Univerzita Karlova | Informační systém UK