PředmětyPředměty(verze: 908)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Data Science with R I - JEM227
Anglický název: Data Science with R I
Český název: Data Science with R I
Zajišťuje: Institut ekonomických studií (23-IES)
Fakulta: Fakulta sociálních věd
Platnost: od 2021
Semestr: zimní
E-Kredity: 6
Způsob provedení zkoušky: zimní s.:kombinovaná
Rozsah, examinace: zimní s.:2/0, Zk [HT]
Počet míst: neomezen / neurčen (200)
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: angličtina
Způsob výuky: prezenční
Poznámka: předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: prof. PhDr. Ladislav Krištoufek, Ph.D.
Vyučující: prof. PhDr. Ladislav Krištoufek, Ph.D.
Třída: Courses for incoming students
Neslučitelnost : JEM181, JEM221
Je neslučitelnost pro: JEM221
Ve slož. prerekvizitě: JEM220
Anotace -
Poslední úprava: Mgr. Michaela Čuprová (07.06.2020)
Úvodní kurz pro Data Science se zaměřením na programovací prostředí R. Předmět uvádí do základního prakrického programování v prostředí R, zahrnující hodnocení modelů, memorizační metody, pokročilé regresní techniky a snižování rozptylu tréninkových vzorků. Na předmět Data Science with R I bude v letním semestru navazovat předmět Data Science with R II se zaměřením na shlukování, SVM, neurální sítě a obecnější síťové metody.
Cíl předmětu -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (23.10.2019)

Hlavním cílem kurzů Data Science with R I a II je naučit studenty pracovat v prostředí R tak, aby vhodně analyzovali data, a to i s užitím metod, které nejsou standardní součastí kurikula ekonometrie.

Literatura -
Poslední úprava: PhDr. Petr Bednařík, Ph.D. (05.06.2020)

Mandatory literature:

  • Ledolter, Johannes (2013): Data Mining and Business Analytics with R, John Wiley & Sons, Hoboken, New Jersey, NJ, USA
  • Toomey, Dan (2014): R for Data Science, Packt Publishing Ltd., Birmingham, UK
  • Zumel, Nina & Mount, John (2014): Practical Data Science with R, Manning Publications Co., Shelter Island, NY, USA

Additional suggested literature:

  • Grolemung, Garret (2014): Hands-On Programming with R, O'Reilly Media Inc., Sebastopol, CA, USA
  • Ojeda, Tony et al. (2014): Practical Data Science Cookbook, Packt Publishing Ltd., Birmingham, UK
Požadavky ke zkoušce -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (16.11.2022)

There are two components to the final score and grade:

  • 3 tracks in DataCamp (40 points)
  • 3 assessments in DataCamp (60 points)

Use this link to register to DataCamp, fill in the profile (properly, use your name, it will be used to track fulfillment of assignments), and complete your assignments there. If you do not have a @fsv.cuni.cz email, let me know, I will send you an invite.

Tracks (upload certificates of completion to the Study Roster, separately for the completed tracks):

  • Skill Track "R Programming" (15 points) - by 27 November 2022 CEST
  • Skill Track "Importing & Cleaning Data" (10 points) - by 18 December 2022 CET
  • Skill Track "Statistics Fundamentals with R" (15 points) - by 5 February 2023 CET

Assessments (upload a printscreen of your finished assessments to the Study Roster, make sure you name is visible in the printscreen):

  • R Programming (20 points) - by 27 November 2022 CEST
  • Importing & Cleaning Data with R (20 points) - by 18 December 2022 CET
  • Statistics Fundamentals with R (20 points) - by 5 February 2023 CET
  • To get the score, use the DataCamp score x and fit it to (x-60)/80*100%
  • At least 50%, i.e. at least 10 points, from each assessment is a necessary (not a suffucient) condition for passing the Data Analysis in R course.
  • You can re-take the assessments twice a week during the whole semester (up till the deadline). Remember that the last one counts (not necessarily the best one).

Grading scale follows the faculty regulations:

  • A: 90+
  • B: 80-90
  • C: 70-80
  • D: 60-70
  • E: 50-60
  • F: below 50
Sylabus -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (29.09.2022)

Struktura výuky:

Týden #1: Course information + Introduction to Data Science

Týden #2-#4: R basics (ZM 1, G 3-5)

Týden #5-6: Loading data, cleaning data, sampling (ZM 2-4)

Týden #7: Model evaluation (ZM 5)

Týden #8-#9: Memorization methods (ZM 6)

Týden #10-#12: Advanced regression methods (linear, logistic, GAMs, LASSO, ridge) (ZM 7, T4-5)

Vstupní požadavky -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (23.10.2019)

Nejsou vstupní požadavky ani prerekvizity, ale očekává se znalost základních kvantitativních metod a logiky empirického výzkumu alespoň na úrovni Econometrics I + II a Statistics.

Požadavky k zápisu -
Poslední úprava: prof. PhDr. Ladislav Krištoufek, Ph.D. (23.10.2019)

Nejsou vstupní požadavky ani prerekvizity, ale očekává se znalost základních kvantitativních metod a logiky empirického výzkumu alespoň na úrovni Econometrics I + II a Statistics.

 
Univerzita Karlova | Informační systém UK