PředmětyPředměty(verze: 902)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Data Science - NDBI048
Anglický název: Data Science
Zajišťuje: Katedra softwarového inženýrství (32-KSI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2021
Semestr: zimní
E-Kredity: 5
Rozsah, examinace: zimní s.:2/2 [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Další informace: https://www.ksi.mff.cuni.cz/~holubova/NDBI048/
Garant: doc. RNDr. Irena Holubová, Ph.D.
Třída: Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Databázové systémy
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: RNDr. Filip Zavoral, Ph.D. (17.03.2021)
Kurz poskytne praktický úvod do problematiky data science. Na přednáškách budou probrány jednotlivé fáze data science projektu, související technologie a metody. Na cvičeních budou jednotlivé kroky aplikovány na reálná data. Část přednášek se zaměří také na specifika oblasti Big Data v kontextu data science. Přidanou hodnotou budou praktické zkušenosti z data science projektů firmy Profinit, tedy to, co se v učebnicích typicky najít nedá. Kurz je určen pro zaměření Analýza a zpracování rozsáhlých dat i pro studenty jiných zaměření, kteří chtějí získat základní přehled o oblasti data science.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. Filip Zavoral, Ph.D. (16.03.2021)

V rámci cvičení každý student dostane (nebo si sám vybere a nechá cvičícím schválit) vhodnou reálnou datovou sadu. Nad ní postupně vyzkouší jednotlivé fáze data science projektu probírané na přednáškách. Výsledky prostupného zpracování dat shrne ve formě dvou písemných reportů (v polovině a na konci semestru), které budou bodově ohodnoceny. Zápočet bude udělen za daný minimální počet bodů. Body získané navíc budou přičteny k bodům z písemného zkouškového testu.

Literatura
Poslední úprava: RNDr. Filip Zavoral, Ph.D. (16.03.2021)

Sinan Ozdemir: Principles of Data Science

Tony Ojeda, Sean Patrick Murphy, Benjamin Bengfort, Abhijit Dasgupta: Practical Data Science Cookbook

Frank Kane: Hands-On Data Science and Python Machine Learning

Sylabus -
Poslední úprava: RNDr. Filip Zavoral, Ph.D. (16.03.2021)

Co je to data science, typické příklady použití. Data science desetiboj (přehled souvisejících metod, algoritmů a technologií). Mapa navazujících přednášek, organizace předmětu, požadavky na zápočet/zkoušku.

Motivace a problémy data science - pohled z praxe. Limity statistických metod, zkreslení.

Technologie pro data science I: přehled populárních zástupců (technologický stack), Python a data science.

Fáze data science projektu, metodika CRISP-DM. Business understanding, data understanding.

Metody explorace a vizualizace dat.

Tvorba srozumitelného reportu.

Příprava dat (čištění, transformace, extrakce příznaků, ...).

Modelování I: základní statistické modely a vyhodnocování výkonnosti.

Modelování II: aplikovaný bayesianismus.

Data science v moderních databázových systémech.

Big Data science, MapReduce a data science.

Apache Spark a data science.

Technologie pro data science II: MLops verzování, dokumentace, ...

Manažerský pohled na data science projekt.

 
Univerzita Karlova | Informační systém UK