PředmětyPředměty(verze: 908)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Analýza dat v R pro studenty humanitních oborů - NPFL112
Anglický název: Data Science in R for Students of Humanities
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2021
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:0/2, Z [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/r-for-humanities/english
Garant: Mgr. Silvie Cinková, Ph.D.
Anotace -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
V humanitních oborech se nezvratně prosazuje paradigma tzv. Digital Humanities založené na automatické a typicky kvantitativní analýze (velkých) dat. Naučíme vás: - čistit a strukturovat data do přehledných tabulek - odhalovat trendy, pravidelnosti, i extrémní případy - základy moderní vizualizace Používáme veřejně přístupný programovací jazyk R, jeho vyspělé grafické vývojové rozhraní RStudio a moderní analytické knihovny rodiny tidyverse.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Silvie Cinková, Ph.D. (11.06.2019)
  • aktivní účast na hodinách (přípustné jsou 3 nepřítomnosti)
  • všechny domácí úkoly odevzdané v termínu
  • pokud v daném semestru používáme online kurz DataCamp (pro studenty zdarma), je povinných 20 000 XP během trvání našeho kurzu. Tyto body musí pocházet z těchto kurzů R:

Introduction to R

Intermediate R

Data Manipulation in R with dplyr

Cleaning Data in R

Data Visualization with ggplot2 Part 1

Data Visualization with ggplot2 Part 2

Working with the RStudio IDE Part 1, Part 2

Importing Data in R Part 1

Pokud student tyto online kurzy již absolvoval, musí nasbírat 20 000 XP z dalších kurzů R.

Výjimky jsou výhradně na zvážení vyučujících.

Literatura -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

Hlavní prameny:

Hadley Wickham and Garrett Grolemund. 2017. R for Data Science. O'Reilly. Momentálně zdarma online: http://r4ds.had.co.nz/

Garrett Grolemund. 2014. Hands-On Programming with R. O'Reilly.

Nina Zumel and John Mount. 2014 Practical Data Science with R. Manning.

Vedlejší prameny:

Julia Silge and David Robinson: Text Mining with R. A tidy approach. 2017. O'Reilly.

Stefan Th. Gries. 2013. Statistics for Linguistics with R. A practical introduction. De Gruyter.

Stefan Th. Gries. 2009. Quantitative Corpus Linguistics with R. De Gruyter. Routledge.

Matthew L. Jockers. 2014. Text Analysis with R for Students of Literature. Springer.

Natalia Levshina. 2015. How to do Linguistics with R. Data exploration and statistical analysis. John Benjamins.

Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis: Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. 2015. Wiley.

Požadavky ke zkoušce
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

aktivní účast na všech hodinách (výjimky na zvážení učitele), včasné odevzdávání domácích úkolů, důkladné studium a příprava k diskusi u zadávané četby (3 - 4 články za semestr).

Sylabus -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)
  • Seznámení s RStudiem. Základní pojmy. Datová analýza jako malý výsek programování.
  • Balíčky, funkce, argumenty, parametry
  • Vybrané objektové třídy: vektor, faktor, data frame, table, tibble, seznam, matice
  • Reporting v RMarkDown
  • Agregace dat
  • Vizuální gramatika diagramů v knihovně ggplot2.
  • Vizuální explorace dat: typy a kombinace veličin, vhodné diagramy a mapování na estetické škály
  • Overplotting a jak na něj
  • Funkce vyhlazování v ggplot2
  • Objekty statistických transformací ("stat_xxx") a jejich souhra s geometrickými objekty ("geom_xxx")
  • Koncept "tidy data"
  • Data wrangling: hlavní funkce knihoven dplyr a tidyr pro transformace tabulek
  • Operace na znakových řetězcích (knihovna stringr)
  • Import a export souborů a objektů různých formátů
  • Případová studie

Vstupní požadavky -
Poslední úprava: doc. RNDr. Vladislav Kuboň, Ph.D. (05.06.2018)

angličtina, základy práce s počítačem, frustrační tolerance a disciplína k pravidelné domácí přípravě. Programovat umět nemusíte.

 
Univerzita Karlova | Informační systém UK