Úvodní kurz pro Data Science se zaměřením na programovací prostředí R. Předmět uvádí do základního prakrického programování v prostředí R, zahrnující hodnocení modelů, memorizační metody, pokročilé regresní techniky a snižování rozptylu tréninkových vzorků. Na předmět Data Science with R I bude v letním semestru navazovat předmět Data Science with R II se zaměřením na shlukování, SVM, neurální sítě a obecnější síťové metody.
Poslední úprava: Čuprová Michaela, Mgr. (07.06.2020)
Introductory course to Data Science with applications in the R programming environment. Special focus is put on understanding of basic practical programming in R, covering model evaluation, memorization methods, advanced regression techniques, and training variance reduction. The Data Science with R I course will be followed by Data Science with R II covering clustering, text mining, support vector machines, neural networks, and networks.
Poslední úprava: Čuprová Michaela, Mgr. (07.06.2020)
Cíl předmětu -
Hlavním cílem kurzů Data Science with R I a II je naučit studenty pracovat v prostředí R tak, aby vhodně analyzovali data, a to i s užitím metod, které nejsou standardní součastí kurikula ekonometrie.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (23.10.2019)
The main aim of the set of courses (Data Science with R I + II) is to train students to be able to properly analyze specific datasets with methods outside of standard econometric framework using the R programming environment.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (10.09.2019)
Literatura -
Mandatory literature:
Ledolter, Johannes (2013): Data Mining and Business Analytics with R, John Wiley & Sons, Hoboken, New Jersey, NJ, USA
Toomey, Dan (2014): R for Data Science, Packt Publishing Ltd., Birmingham, UK
Zumel, Nina & Mount, John (2014): Practical Data Science with R, Manning Publications Co., Shelter Island, NY, USA
Additional suggested literature:
Grolemung, Garret (2014): Hands-On Programming with R, O'Reilly Media Inc., Sebastopol, CA, USA
Ojeda, Tony et al. (2014): Practical Data Science Cookbook, Packt Publishing Ltd., Birmingham, UK
Poslední úprava: Bednařík Petr, PhDr., Ph.D. (05.06.2020)
Mandatory literature:
Ledolter, Johannes (2013): Data Mining and Business Analytics with R, John Wiley & Sons, Hoboken, New Jersey, NJ, USA
Toomey, Dan (2014): R for Data Science, Packt Publishing Ltd., Birmingham, UK
Zumel, Nina & Mount, John (2014): Practical Data Science with R, Manning Publications Co., Shelter Island, NY, USA
Additional suggested literature:
Grolemung, Garret (2014): Hands-On Programming with R, O'Reilly Media Inc., Sebastopol, CA, USA
Ojeda, Tony et al. (2014): Practical Data Science Cookbook, Packt Publishing Ltd., Birmingham, UK
Poslední úprava: Bednařík Petr, PhDr., Ph.D. (05.06.2020)
Požadavky ke zkoušce -
Přepněte, prosím, do anglické verze.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (04.10.2023)
There are 4 components to the final score and grade:
3 Core Assessments in DataCamp (3*5 = 15 points)
3 Courses in DataCamp (3*10 = 30 points)
1 Topical Assessments in DataCamp (25 points)
1 Research Report (30 points)
Use this LINK to register to DataCamp, fill in the profile (properly, use your name, it will be used to track fulfillment of assignments), and complete your assignments there. If you do not have a @fsv.cuni.cz/@cuni.cz/@m365.cuni.cz email, let me know, I will send you an invite.
Core Assessments (upload a printscreen of your finished assessments to the Study Roster, make sure you name is visible in the printscreen):
R Programming (5 points) - by 20 October 2024 CET
Exploratory Analysis Theory (5 points) - by 20 October 2024 CET
Analytic Fundamentals (5 points) - by 20 October 2024 CET
You need to get at least 120 score to obtain 5 points for each of these three Core Assessments (MANDATORY).
You can re-take the assessments twice a week up till the deadline. Remember that the last one counts (not necessarily the best one).
Courses (upload certificates or screenshots of completion to the Study Roster, separately for the completed courses):
Supervised Learning in R: Classification (10 points) - by 24 November 2024 CET
Supervised Learning in R: Regression (10 points) - by 8 December 2024 CET
Machine Learning with Tree-Based Models in R (10 points) - by 22 December 2024 CET
Topical Assessment (upload a printscreen of your finished assessments to the Study Roster, make sure you name is visible in the printscreen):
Machine Learning Fundamentals in R (25 points) - by 26 January 2025 CET
To get the score, use the DataCamp score x and fit it to (x-60)/80*100%
At least 50%, i.e. at least 12.5 points, is a necessary (not a sufficient) condition for passing the course.
You can re-take the assessments twice a week during the whole semester (up till the deadline). Remember that the last one counts (not necessarily the best one).
Research Report (upload a zip file including the report, R code, and dataset, to the Study Roster):
Teams of up to 4 students.
Up to 10 pages (including everything but the code and data which will form separate attachments).
Submit by 2 February 2025 CET
Grading scale follows the faculty regulations:
A: 90+
B: 80-90
C: 70-80
D: 60-70
E: 50-60
F: below 50
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (04.10.2024)
Sylabus -
Přepněte, prosím, do anglické verze.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (04.10.2023)
See the Teaching methods section.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (05.10.2023)
Vstupní požadavky -
Nejsou vstupní požadavky ani prerekvizity, ale očekává se znalost základních kvantitativních metod a logiky empirického výzkumu alespoň na úrovni Econometrics I + II a Statistics.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (23.10.2019)
There are no formal course requirements. However, knowledge up to the level of Statisics (JEB105), Econometrics I (JEB109), and Data Analysis in R (JEB157) courses is assumed and expected.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (03.10.2024)
Požadavky k zápisu -
Nejsou vstupní požadavky ani prerekvizity, ale očekává se znalost základních kvantitativních metod a logiky empirického výzkumu alespoň na úrovni Econometrics I + II a Statistics.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (23.10.2019)
There are no formal course requirements. However, knowledge up to the level of Statisics (JEB105), Econometrics I (JEB109), and Data Analysis in R (JEB157) courses is assumed and expected.
Poslední úprava: Krištoufek Ladislav, prof. PhDr., Ph.D. (03.10.2024)