Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910
Název práce v češtině: | Tematické modelování publikační činnosti České akademie věd a umění v letech 1890–1910 |
---|---|
Název v anglickém jazyce: | Topic modelling of the publication activities of the Czech Academy of Sciences and Arts in the years 1890-1910 |
Klíčová slova: | České akademie císaře Františka Josefa pro vědy|slovesnost a umění|tematické modelování|LDA|digital humanities |
Klíčová slova anglicky: | Czech Academy of Emperor Franz Joseph for Science|Literature and Arts|topic modelling|LDA|digital humanities |
Akademický rok vypsání: | 2022/2023 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav informačních studií a knihovnictví (21-UISK) |
Vedoucí / školitel: | doc. Jindřich Marek, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 02.10.2022 |
Datum zadání: | 02.10.2022 |
Schválení administrátorem: | bylo schváleno |
Datum potvrzení stud. oddělením: | 29.11.2022 |
Datum a čas obhajoby: | 29.01.2024 00:00 |
Datum odevzdání elektronické podoby: | 17.12.2023 |
Datum proběhlé obhajoby: | 29.01.2024 |
Odevzdaná/finalizovaná: | odevzdaná studentem a finalizovaná |
Oponenti: | Mgr. Adéla Jarolímková, Ph.D. |
Zásady pro vypracování |
Cílem práce je na základě strojového vyhodnocení tištěných publikací zjistit, jaká témata byla předmětem bádání České akademie císaře Františka Josefa pro slovesnost, vědy a umění v letech 1890–1910.
V teoretické části bude představena struktura České akademie na přelomu 19. a 20. století a její publikační činnost. Následně budou prezentovány možnosti získávání plných textů digitalizovaných dokumentů z digitálních knihoven pro použití v rámci digitálních humanitních věd a způsoby jejich další úpravy a obohacení. Pozornost bude věnována také různým přístupům k tematickému modelování – strojové klasifikaci textů založené na identifikaci často se společně vyskytujících slov, jejichž shluky odpovídají rozdílným tematickým skupinám. Pro dosažení cíle diplomové práce budou v praktické části získány plné texty digitalizovaných vědeckých sborníků „Rozpravy“, které Česká akademie vydala v daném období a jsou dostupné v digitálních knihovnách. Získaná data projdou úpravami (např. tokenizací či lemmatizací) a v případě potřeby i dalším obohacením o metadata. Takto upravené texty budou použity k modelování témat. Výsledkem práce bude ucelený přehled témat, kterým se Česká akademie na počátku svého vzniku věnovala. Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty. |
Seznam odborné literatury |
AGGARWAL, Charu C., CHENGXIANG, Zhai. Mining Text Data. 1. vydání. New York: Springer, 2012. ISBN 978-1-4614-3223-4. DOI: 10.1007/978-1-4614-3223-4
BLEI, David M. Probabilistic topic models. Communications of the ACM [online]. 2012,55(4), 77-84 [cit. 2022-08-11]. ISSN 0001-0782. DOI: 10.1145/2133806.2133826 KUŠKOVÁ Helena. Česká akademie věd a umění a její vydavatelská činnost v letech 1890-1918. In: Knihovna: vědecko-teoretický sborník, Praha: SPN, 1977, s. 205-256. POKORNÝ, J. Odkaz Josefa Hlávky. 1. vydání. Praha: Academia, 2008. ISBN 978-80-200-1590-7 SCHREIBMAN, Susan, SIEMENS, Ray a UNSWORTH, John. A new companion to digital humanities. First edition. Chichester: Wiley Blackwell, 2016. ISBN 978-1-118-68064-3 |