PředmětyPředměty(verze: 849)
Předmět, akademický rok 2019/2020
   Přihlásit přes CAS
Aplikace Big Data technologií v Data Science - NDBI047
Anglický název: Application of Big Data Technologies in Data Science
Zajišťuje: Katedra softwarového inženýrství (32-KSI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018
Semestr: letní
E-Kredity: 4
Rozsah, examinace: letní s.:1/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Garant: doc. RNDr. Irena Holubová, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Databázové systémy
Anotace -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
Prakticky zaměřený předmět navazující na úvodní přednášku (NDBI040) o Big Data technologiích. Cílem je naučit studenty na konkrétních úlohách jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat. Předmět je veden odborníky z firmy Profinit a odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)

V průběhu semestru se studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy typu Map/Reduce. Zápočet a zkouška bude udělena za kombinaci testu a vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.

Literatura -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
  • Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale 4th Edition, by Tom White, 4nd edition, Oreilly’s, 2015
  • Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst, Dean Abbott, Wiley 2014
  • Big Data a NoSQL databáze, Irena Holubová, Jiří Kosek, Karel Minařík, David Novák, Grada 2015

Sylabus -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
  • Přednáška 1: Úvod do Hadoopu, přínos Big Data technologií v Data Science úlohách

Cvičení 1 + 2: První kroky na clusteru, základní nástroje

  • Přednáška 2: Storage, distribuované uložení dat v HDFS, technologie Hive

Cvičení 3 + 4: Technologie HDFS, Hive, HQL

  • Přednáška 3. Apache Spark, výpočty typu Map/Reduce v RAM

Cvičení 5 + 6: Spark RDD a Spark Data Frame paradigma

  • Přednáška 4: Proudové zpracování dat, algoritmy a technologie

Cvičení 7 + 8: Spark Streaming, Kafka

  • Přednáška 5: Data Science, modelování příznaků v kontextu velkých dat

Cvičení 9 + 10: modelování příznaků, Spark ML, GraphX

  • Přednáška 6: Metodika vypracování zápočtové úlohy

Cvičení 11 + 12: práce s počítači, zápočtový test

 
Univerzita Karlova | Informační systém UK