PředmětyPředměty(verze: 901)
Předmět, akademický rok 2022/2023
  
Data Science with R I - JEM227
Anglický název: Data Science with R I
Český název: Data Science with R I
Zajišťuje: Institut ekonomických studií (23-IES)
Fakulta: Fakulta sociálních věd
Platnost: od 2021
Semestr: zimní
E-Kredity: 6
Způsob provedení zkoušky: zimní s.:kombinovaná
Rozsah, examinace: zimní s.:2/0 Zk [hodiny/týden]
Počet míst: neomezen / neurčen (200)
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: angličtina
Způsob výuky: prezenční
Poznámka: předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: prof. PhDr. Ladislav Krištoufek, Ph.D.
Vyučující: prof. PhDr. Ladislav Krištoufek, Ph.D.
Třída: Courses for incoming students
Neslučitelnost : JEM181, JEM221
Je neslučitelnost pro: JEM221
Ve slož. prerekvizitě: JEM220
Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: Mgr. Michaela Čuprová (07.06.2020)
Úvodní kurz pro Data Science se zaměřením na programovací prostředí R. Předmět uvádí do základního prakrického programování v prostředí R, zahrnující hodnocení modelů, memorizační metody, pokročilé regresní techniky a snižování rozptylu tréninkových vzorků. Na předmět Data Science with R I bude v letním semestru navazovat předmět Data Science with R II se zaměřením na shlukování, SVM, neurální sítě a obecnější síťové metody.
Cíl předmětu -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (23.10.2019)

Hlavním cílem kurzů Data Science with R I a II je naučit studenty pracovat v prostředí R tak, aby vhodně analyzovali data, a to i s užitím metod, které nejsou standardní součastí kurikula ekonometrie.

Literatura -
Poslední úprava: PhDr. Petr Bednařík, Ph.D. (05.06.2020)

Mandatory literature:

  • Ledolter, Johannes (2013): Data Mining and Business Analytics with R, John Wiley & Sons, Hoboken, New Jersey, NJ, USA
  • Toomey, Dan (2014): R for Data Science, Packt Publishing Ltd., Birmingham, UK
  • Zumel, Nina & Mount, John (2014): Practical Data Science with R, Manning Publications Co., Shelter Island, NY, USA

Additional suggested literature:

  • Grolemung, Garret (2014): Hands-On Programming with R, O'Reilly Media Inc., Sebastopol, CA, USA
  • Ojeda, Tony et al. (2014): Practical Data Science Cookbook, Packt Publishing Ltd., Birmingham, UK
Požadavky ke zkoušce -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (06.10.2021)

Celková známka je souhrnem třech částí:

  • úkoly v DataCampu: 45 (6 úkolů * 7.5 bodů)
  • aktivita: 10 bodů (max. 3 kurzy navíc v DataCampu z predefinovaného listu, každý max. za 3 body + body za úkoly zadané během přednášek, max. součet 10 bodů)
  • závěrečný test: 45 bodů (nutnou podmínkou pro splnění zkoušky je získání alespoň 22,5 bodů ze závěrečného testu)

Hodnotící škála (dle OD 17/2018):

  • A: nad 90
  • B: mezi 80 a 90 (včetně)
  • C: mezi 70 and 80 (včetně)
  • D: mezi 60 a 70 (včetně)
  • E: mezi 50 a 60 (včetně)
  • F: below 50 (včetně)

Úkoly v DataCamp.com (užijte tento link pro registraci). Přihlašte se během prvních tří týdnů výuky a použijte vlastní @fsv.cuni.cz pro registraci: http://www.cuni.cz

  • Úkol #1 - do konce Týdne #4:
    • Introduction to R
  • Úkol #2 - do konce Týdne #6:
    • Introduction to Data
  • Úkol #3 - do konce Týdne #6:
    • Intermediate R
  • Úkol #4 - do konce Týdne #10
    • Supervised Learning in R: Regression
  • Úkol #5 - do konce Týdne #13:
    • Supervised Learning in R: Classifiction
  • Úkol #6 - do konce Týdne #13
    • Generalized Linear Models in R
Sylabus -
Poslední úprava: Mgr. Michaela Čuprová (07.06.2020)

Struktura výuky:

Týden #1: Course information + Introduction to Data Science
Týden #2-#4: R basics (ZM 1, G 3-5)

Týden #5-6: Loading data, cleaning data, sampling (ZM 2-4)

Týden #7: Model evaluation (ZM 5)

Týden #8-#9: Memorization methods (ZM 6)

Týden #10-#12: Advanced regression methods (linear, logistic, GAMs, LASSO, ridge) (ZM 7, T4-5)

Vstupní požadavky -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (23.10.2019)

Nejsou vstupní požadavky ani prerekvizity, ale očekává se znalost základních kvantitativních metod a logiky empirického výzkumu alespoň na úrovni Econometrics I + II a Statistics.

Požadavky k zápisu -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (23.10.2019)

Nejsou vstupní požadavky ani prerekvizity, ale očekává se znalost základních kvantitativních metod a logiky empirického výzkumu alespoň na úrovni Econometrics I + II a Statistics.

 
Univerzita Karlova | Informační systém UK