SubjectsSubjects(version: 964)
Course, academic year 2024/2025
   Login via CAS
Corpus processing and mining of diachronic data - AMLV00086
Title: Možnosti a meze korpusového zpracování a vytěžování diachronních dat
Guaranteed by: Institute of the Czech National Corpus (21-UCNK)
Faculty: Faculty of Arts
Actual: from 2024
Semester: winter
Points: 3
E-Credits: 3
Examination process: winter s.:
Hours per week, examination: winter s.:0/2, C [HT]
Capacity: unknown / 10 (unknown)
Min. number of students: unlimited
4EU+: no
Virtual mobility / capacity: no
Key competences:  
State of the course: taught
Language: Czech
Teaching methods: full-time
Level:  
Note: course can be enrolled in outside the study plan
enabled for web enrollment
Guarantor: Mgr. Martin Stluka, Ph.D.
Teacher(s): Mgr. Martin Stluka, Ph.D.
Annotation - Czech
Seminář představí formu zpracovávání a vytváření diachronních korpusů v rámci ČNK, zejména se zaměřením na morfologickou anotaci. Podstatná část semináře bude věnována práci s existujícími diachronními korpusy v rámci ČNK a možnosti jejich vytěžování. Seminář je koncipován prezenčně-distanční formou (cca 14denní cyklus). Prezenční je zaměřena zejména na možnosti anotace diachronních dat. Distanční část se týká vytěžování diachronních korpusů a jeho vyhodnocování. Součástí je také transkripce frakturou tištěných textů a její analýza.
Last update: Kováříková Dominika, Mgr., M.A., Ph.D. (16.09.2024)
Course completion requirements - Czech

aktivní účast na seminářích; průběžné odevzdávání korpusových analýz na diachronních datech; transkribovaný text tištětný frakturou

Last update: Kováříková Dominika, Mgr., M.A., Ph.D. (16.09.2024)
Literature - Czech

Benešová, L. — Kučera, K. – Najbrtová, K. — Pivoňková, K. — Stluka, M. (2023): Korpus DIA1900: jeho koncepce a vytváření. Časopis pro moderní filologii, 105, 1, s. 121–140

Benešová, L. — Pivoňková, K. — Stluka, M. (2023): Lemmatization of the DIA1900 Diachronic Corpus. In: Jazykovedný časopis, vol. 74, 1, s. 275–284 Hajič, J. (2004): Disambiguation of Rich Inflection: Computational Morphology of Czech. Praha: Karolinum
Helsinki corpus of English texts. Dostupné z: <http://icame.uib.no/hc/>

Kučera, K (1998): Vývoj účinnosti a složitosti českého pravopisu od konce 13. do konce 20. století. Slovo a slovesnost, 59, s. 178–199


Kučera, K. — Najbrtová, K. — Pivoňková, K. — Řehořková, A. — Stluka, M. (2019): Korpus českého jazyka 2. poloviny 19. století. Časopis pro moderní filologii, 101, 1, s. 92–97

Kučera, K. — Najbrtová, K. — Pivoňková, K. — Řehořková, A. — Stluka, M. (2019): Korpus českého jazyka 2. poloviny 19. století. Časopis pro moderní filologii, 101, 1, s. 92–97

Kieraś, W. — Woliński, M. (2018): Manually Annotated Corpus of Polish Texts Published between 1830 and 1918. In: Proceedings of the Eleventh International Conference on Language Recources and Evaluation (LREC 2018).Miyazaki, Japan: ELRA


Hlaváčová, J. — Mikulová, M. — Štěpánková, B. — Hajič, J. (2019): Modifications of the Czech morphologigal dictionary for consistent corpus annotation. Journal of Linguistics, 70, 2, s. 380–389. Internetová jazyková příručka [online]. [cit. 29. 3. 2022]. Dostupné z: 

Osolsobě, K. — Hlaváčová, J. — Petkevič, V. — Šimandl, J. — Svášek, M. (2017): Nová automatická morfologická analýza češtiny. Naše řeč, 4, s. 225–234


Tichý, O. (2017): Nástroj na tvaroslovnou analýzu staré angličtiny. Časopis pro moderní filologii, 99, 2017, 1, 40–54ÚTKL: Poziční morfologické tagy [online]. [cit. 29. 3. 2022]. Dostupné z: 

Last update: Kováříková Dominika, Mgr., M.A., Ph.D. (16.09.2024)
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html