Automatic extraction of the main characters from books and their interactions
Název práce v češtině: | Automatická extrakce hlavních postav z knihy a jejich interakcí |
---|---|
Název v anglickém jazyce: | Automatic extraction of the main characters from books and their interactions |
Klíčová slova: | extrakce postav|pojmenované entity|beletrie |
Klíčová slova anglicky: | extraction of characters|named entities|fiction |
Akademický rok vypsání: | 2021/2022 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. David Mareček, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 16.02.2021 |
Datum zadání: | 17.02.2022 |
Datum potvrzení stud. oddělením: | 01.03.2022 |
Datum a čas obhajoby: | 12.09.2022 09:00 |
Datum odevzdání elektronické podoby: | 21.07.2022 |
Datum odevzdání tištěné podoby: | 21.07.2022 |
Datum proběhlé obhajoby: | 12.09.2022 |
Oponenti: | Mgr. Rudolf Rosa, Ph.D. |
Zásady pro vypracování |
Cílem práce je vytvořit aplikaci, která na základě vloženého textu/knihy vypíše základní informace o postavách a jejich interakcích v průběhu děje.
Výstupem budou vygenerované grafy, které budou ukazovat výskyt jednotlivých postav v čase a informace o tom, kdo se kdy s kým setkal. Grafy budou proliknované s textem knihy. Kliknutím na dané místo grafu se vždy ukáže dané místo v knize. V práci bude třeba vyřešit několik netriviálních problémů: a) sjednocení jmen postav: po aplikaci vhodného rozpoznávače pojmenovaných entit bude třeba sjednotit jména odpovídající téže postavě, např. "Margareth" - "Meg" - "Mrs. March" b) koreference: často se v textu na postavy odkazuje pouze zájmeny c) rozpoznání, zda jsou dvě postavy spolu nebo se o nich pouze mluví na stejném místě knihy Je zřejmé že tyto problémy nepůjdou vyřešit stoprocentně. V práci budou popsány vyzkoušené metody včetně analýzy chybovosti. |
Seznam odborné literatury |
Hardik Vala, David Jurgens, Andrew Piper, Derek Ruths: Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015 [https://aclanthology.org/D15-1088.pdf]
NameTag, an open-source tool for named entity recognition [https://ufal.mff.cuni.cz/nametag] |