Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910
Thesis title in Czech: | Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910 |
---|---|
Thesis title in English: | Topic modelling of the publication activities of the Czech Academy of Sciences and Arts in the years 1890-1910 |
Key words: | České akademie císaře Františka Josefa pro vědy|slovesnost a umění|tematické modelování|LDA|digital humanities |
English key words: | Czech Academy of Emperor Franz Joseph for Science|Literature and Arts|topic modelling|LDA|digital humanities |
Academic year of topic announcement: | 2022/2023 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Institute of Information Studies and Librarianship (21-UISK) |
Supervisor: | doc. Jindřich Marek, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 02.10.2022 |
Date of assignment: | 02.10.2022 |
Administrator's approval: | approved |
Confirmed by Study dept. on: | 29.11.2022 |
Date and time of defence: | 29.01.2024 00:00 |
Date of electronic submission: | 17.12.2023 |
Date of proceeded defence: | 29.01.2024 |
Submitted/finalized: | committed by student and finalized |
Opponents: | Mgr. Adéla Jarolímková, Ph.D. |
Guidelines |
Cílem práce je na základě strojového vyhodnocení tištěných publikací zjistit, jaká témata byla předmětem bádání České akademie císaře Františka Josefa pro slovesnost, vědy a umění v letech 1890–1910.
V teoretické části bude představena struktura České akademie na přelomu 19. a 20. století a její publikační činnost. Následně budou prezentovány možnosti získávání plných textů digitalizovaných dokumentů z digitálních knihoven pro použití v rámci digitálních humanitních věd a způsoby jejich další úpravy a obohacení. Pozornost bude věnována také různým přístupům k tematickému modelování – strojové klasifikaci textů založené na identifikaci často se společně vyskytujících slov, jejichž shluky odpovídají rozdílným tematickým skupinám. Pro dosažení cíle diplomové práce budou v praktické části získány plné texty digitalizovaných vědeckých sborníků „Rozpravy“, které Česká akademie vydala v daném období a jsou dostupné v digitálních knihovnách. Získaná data projdou úpravami (např. tokenizací či lemmatizací) a v případě potřeby i dalším obohacením o metadata. Takto upravené texty budou použity k modelování témat. Výsledkem práce bude ucelený přehled témat, kterým se Česká akademie na počátku svého vzniku věnovala. Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty. |
References |
AGGARWAL, Charu C., CHENGXIANG, Zhai. Mining Text Data. 1. vydání. New York: Springer, 2012. ISBN 978-1-4614-3223-4. DOI: 10.1007/978-1-4614-3223-4
BLEI, David M. Probabilistic topic models. Communications of the ACM [online]. 2012,55(4), 77-84 [cit. 2022-08-11]. ISSN 0001-0782. DOI: 10.1145/2133806.2133826 KUŠKOVÁ Helena. Česká akademie věd a umění a její vydavatelská činnost v letech 1890-1918. In: Knihovna: vědecko-teoretický sborník, Praha: SPN, 1977, s. 205-256. POKORNÝ, J. Odkaz Josefa Hlávky. 1. vydání. Praha: Academia, 2008. ISBN 978-80-200-1590-7 SCHREIBMAN, Susan, SIEMENS, Ray a UNSWORTH, John. A new companion to digital humanities. First edition. Chichester: Wiley Blackwell, 2016. ISBN 978-1-118-68064-3 |