PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Úvod do analýzy dat v R - ASGV00154
Anglický název: Introduction to Data Analysis in R
Zajišťuje: Katedra sociologie (21-KSOC)
Fakulta: Filozofická fakulta
Platnost: od 2023
Semestr: zimní
Body: 0
E-Kredity: 3
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:0/2, Z [HT]
Počet míst: neurčen / neomezen (15)
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Kompetence:  
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Poznámka: předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: Mgr. Aleš Vomáčka
Vyučující: Mgr. Aleš Vomáčka
Anotace -
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)
Kurz je úvodem do programovacího jazyka R vyvinutého pro statistickou analýzu dat. V kurzu není předpokládána předchozí znalost jazyka R, ale podmínkou je základní znalost popisné statistiky a výhodou jsou předchozí zkušenosti s analýzou dat. Minimálním vstupním předpokladem pro zapsání pro studenty na Katedře sociologie FF UK je absolvování kurzů prvního ročníku Statistika 1 (ASG100117) a Seminář ke statistice 1 (ASG100118) a doporučujeme si ho tedy nechat nejdříve do 2. ročníku bakalářského studia.

V kurzu vycházíme z moderního přístupu k analýze dat v R pomocí vývojového prostředí R Studio a “gramatiky” Tidyverse. Tento přístup dnes mezi uživatelskou komunitou pravděpodobně převažuje a soustředí obrovské množství dalšího vývoje.<br>

Učit se R je běh na dlouhou trať. Je to cesta, která znamená mnohem větší časovou investici než zvládnutí softwaru s GUI, jako je například SPSS. Odměnou je mnohem větší flexibilita a v ruce univerzální nástroj pro zpracování dat, analýzu, vizualizaci, ale i programování a automatizaci. Přestože v kurzu se tak daleko nedostaneme, v R je dnes díky dostupným knihovnám a nástrojům možné vytvářet také interaktivní grafické aplikace, webové stránky, prezentace a kromě standardní statistické analýzy jsou dostupné také nástroje tzv. strojového učení. Tento kurz má smysl především pro ty studenty, kteří se chtějí ve své sociologické (či jiné vědecké) dráze zaměřovat kvantitativně a kteří jsou připraveni k samostudiu a dalšímu rozvoji skromných základů, které jim kurz nabídne.

Účast na výuce předpokládá vlastní notebook s připojením k internetu. Výuka kurzu probíhá v češtině.
Cíl předmětu -
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)

Cílem předmětu je uvést studenty do programovacího prostředí pro statistickou analýzu dat R se zaměřením na moderní pojetí práce v R pomocí balíků Tidyverse. Studenti se především naučí efektivně manipulovat s daty (balík dplyr) a flexibilně a efektivně data vizualizovat (balík ggplot2). Kromě toho je pozornost věnována balíkům forcats (práce s kategoriálními proměnnými neboli faktory) a balíku stringr (práce s textovými proměnnými).

Podmínky zakončení předmětu -
Poslední úprava: Mgr. Jaromír Mazák, Ph.D. (27.03.2022)

Pro úspěšné splnění předmětu je nutné splnit následující úkol:

Odevzdat do konce akademického roku, ve kterém byl předmět zapsán, semestrální úkol, který spočívá v replikaci zadané datové analýzy. Přesné zadání pro daný akademický rok bude studentům zpřístupněno na začátku kurzu. V každém případě je vždy potřeba odevzdat skript, který musí být plně funkční, tedy musí proběhnout bez chyby od začátku do konce bez vnějších zásahů, data, která skript potřebuje, aby proběhl, a výstup, který je skriptem generován. 

Literatura -
Poslední úprava: Mgr. Aleš Vomáčka (19.09.2023)

Povinná literatura:

* Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (1st edition). O’Reilly Media. Dostupné online: https://r4ds.had.co.nz/

* Vomáčka, A. & Mazák, J. (2023) Úvod do analýzy dat v R: První výprava do světa R a Tidyverse. Dostupné online na https://sociology-fa-cu.github.io/uvod-do-r-kniha/

 

Doporučená literatura:

* Rodrigues, B. (2020). Modern R with the tidyverse. Dostupné online: https://b-rodrigues.github.io/modern_R/

* Winston Chang (2018): R Graphics Cookbook. Dostupné online: http://users.metu.edu.tr/ozancan/R%20Graphics%20Cookbook.pdf Případně útlejší verze zde: http://www.cookbook-r.com/Graphs/

* Navarro, D. (n.d.).  Learning Statistics with R: A tutorial for psychology students and other beginners. Dostupné online: https://open.umn.edu/opentextbooks/textbooks/learning-statistics-with-r-a-tutorial-for-psychology-students-and-other-beginners

 

Metody výuky -
Poslední úprava: Mgr. Jaromír Mazák, Ph.D. (27.03.2022)

Seminář.

Sylabus -
Poslední úprava: Mgr. Petra Poncarová (20.09.2022)

Témata:

0. Ještě před začátkem - samostatně si doma nainstalovat R, Rstudio, Tidyverse podle návodu

1. Co se v kurzu naučíte (motivace), co musíte splnit, R jako software, R Studio jako uživatelské rozhraní, materiály a kde najít pomoc, R-base vs. Tidyverse, ukázky práce s R-base, datové struktury v R, vestavěné funkce v R.

2. Import dat, transformace datových souborů (balík dplyr; funkce select, filter, arrange, mutate, summarise)

3. Práce v větším množstvím proměnných najednou (funkce across)

4. Manipulace s datovým souborem (funkce pivot_longer, pivot_wider, *_join, bind_rows, bind_collumns)

5. Opakování funkcí za balíku dplyr a tidyr

6. Práce s faktory (balíček  forcats)

7. Explorace dat pomocí vizualizace (balík ggplot 2) - 1.hodina

8. Explorace dat pomocí vizualizace (balík ggplot 2) – 2. hodina

9. Estetická a funkční editace grafů (balík ggplot2, balík scales)

10. Práce se textovými proměnnými (balíček stringr)

11. Úvod do RMarkdown a generování analytických výstupů v různých formátech 

12. Opakovací hodina

 

 
Univerzita Karlova | Informační systém UK