PředmětyPředměty(verze: 978)
Předmět, akademický rok 2025/2026
   
Analýza dat v R pro studenty humanitních oborů - NPFL112
Anglický název: Data Science in R for Students of Humanities
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2025
Semestr: oba
E-Kredity: 3
Rozsah, examinace: 2/0, Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Kompetence: critical thinking, data literacy
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/r-for-humanities/english
Poznámka: předmět lze zapsat v ZS i LS
Garant: Mgr. Silvie Cinková, Ph.D.
Vyučující: Mgr. Silvie Cinková, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
V humanitních oborech se nezvratně prosazuje paradigma tzv. Digital Humanities založené na automatické a typicky kvantitativní analýze (velkých) dat. Naučíme vás: - čistit a strukturovat data do přehledných tabulek - odhalovat trendy, pravidelnosti, i extrémní případy - základy moderní vizualizace Používáme veřejně přístupný programovací jazyk R, jeho vyspělé grafické vývojové rozhraní RStudio a moderní analytické knihovny rodiny tidyverse.
Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
Podmínky zakončení předmětu -

Předmět je zakončen zkouškou. Zkouška neobsahuje žádný závěrečný test, ale skládá se z hodnocení studentovy práce za celý semestr podle následujících kritérií:

Dobře: 30 000 XP na DataCampu, aktivní přítomnost v hodinách (nebo ekvivalent v DataCamp XP: zameškaná hodina = 1000 XP navíc), 1 samostatný domácí úkol odevzdaný v termínu.

Velmi dobře: 30 000 XP na DataCampu, aktivní přítomnost v hodinách (nebo ekvivalent v DataCamp XP: zameškaná hodina = 1000 XP navíc), 2 samostatné domácí úkoly odevzdané v termínu.

Výborně: 30 000 XP na DataCampu, aktivní přítomnost v hodinách (nebo ekvivalent v DataCamp XP: zameškaná hodina = 1000 XP navíc), 3 samostatné domácí úkoly odevzdané v termínu.

Do limitu XP z DataCampu se počítají jenom body z aktuálního semestru a z předepsaných kurzů (pokud je student již vypracoval někdy v minulosti, je povinen domluvit si individuální alternativní zadání s vyučujícím).

Termín splnění studijních povinností zadaných na platformě DataCamp je omezen platností licence (přesně 6 měsíců od první rozvržené hodiny v semestru). Náhradní plnění mimo DataCamp není možné.

Poslední úprava: Cinková Silvie, Mgr., Ph.D. (23.05.2025)
Literatura -

Hlavní prameny:

Hadley Wickham and Garrett Grolemund. 2017. R for Data Science. O'Reilly. Momentálně zdarma online: http://r4ds.had.co.nz/

Garrett Grolemund. 2014. Hands-On Programming with R. O'Reilly.

Nina Zumel and John Mount. 2014 Practical Data Science with R. Manning.

Vedlejší prameny:

Julia Silge and David Robinson: Text Mining with R. A tidy approach. 2017. O'Reilly.

Stefan Th. Gries. 2013. Statistics for Linguistics with R. A practical introduction. De Gruyter.

Stefan Th. Gries. 2009. Quantitative Corpus Linguistics with R. De Gruyter. Routledge.

Matthew L. Jockers. 2014. Text Analysis with R for Students of Literature. Springer.

Natalia Levshina. 2015. How to do Linguistics with R. Data exploration and statistical analysis. John Benjamins.

Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis: Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. 2015. Wiley.

Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
Požadavky ke zkoušce

Předmět je zakončen zkouškou. Zkouška neobsahuje žádný závěrečný test, ale skládá se z hodnocení studentovy práce za celý semestr podle následujících kritérií:

Dobře: 30 000 XP na DataCampu, aktivní přítomnost v hodinách (nebo ekvivalent v DataCamp XP: zameškaná hodina = 1000 XP navíc), 1 samostatný domácí úkol odevzdaný v termínu.

Velmi dobře: 30 000 XP na DataCampu, aktivní přítomnost v hodinách (nebo ekvivalent v DataCamp XP: zameškaná hodina = 1000 XP navíc), 2 samostatné domácí úkoly odevzdané v termínu.

Výborně: 30 000 XP na DataCampu, aktivní přítomnost v hodinách (nebo ekvivalent v DataCamp XP: zameškaná hodina = 1000 XP navíc), 3 samostatné domácí úkoly odevzdané v termínu.

Do limitu XP z DataCampu se počítají jenom body z aktuálního semestru a z předepsaných kurzů (pokud je student již vypracoval někdy v minulosti, je povinen domluvit si individuální alternativní zadání s vyučujícím).

Termín splnění studijních povinností zadaných na platformě DataCamp je omezen platností licence (přesně 6 měsíců od první rozvržené hodiny v semestru). Náhradní plnění mimo DataCamp není možné.

Poslední úprava: Cinková Silvie, Mgr., Ph.D. (23.05.2025)
Sylabus -

1. Základní pojmy R, výhody R v datové analýze jako subdisciplíně programování

2. Tabulky, vektory, načtení tabulkového souboru, vektor jako sloupec tabulky, typy veličin jako třídy vektorů, výběr (subsetting) elementů, řádků a sloupců v základním R

3. Grafická knihovna ggplot2, mapování veličin na estetické škály, typy grafů a škál (funkce geom_, scale_)

4. Čištění dat - knihovna dplyr: výběr a manipulace řádků (filter, slice, arrange) a sloupců (select, rename, mutate, if_else, case_when)

5. Čištění dat - skupiny (group_by, across, rowwise), agregace (count, summarize)

6. Sdružování tabulek (joins)

7. Koncept "tidy data", konverze mezi "širším" a "delším" formátem tabulky pro použití s dplyr a ggplot2, tidyr (pivot_longer, pivot_wider, unite and separate)

8. Operace na řetězcích, regulární výrazy vč. "look-around"

9. Koncept iterace v R: vektorizace, cyklus, funkce rodiny apply a funkce rodiny map z knihovny purrr v běžných uživatelských situacích

10. Dolování informací z textu s pomocí automatické syntaktické anotace, interakce s API syntaktického parseru UDPipe

Oblíbené datasety: gapminder (https://www.gapminder.org/data/), built-in datasety iris, diamonds, corpora

Poslední úprava: Cinková Silvie, Mgr., Ph.D. (22.05.2023)
Vstupní požadavky -

angličtina, základy práce s počítačem, frustrační tolerance a disciplína k pravidelné domácí přípravě. Programovat umět nemusíte.

Poslední úprava: Kuboň Vladislav, doc. RNDr., Ph.D. (05.06.2018)
 
Univerzita Karlova | Informační systém UK