PředmětyPředměty(verze: 867)
Předmět, akademický rok 2019/2020
  
Aplikace Big Data technologií v Data Science - NDBI047
Anglický název: Application of Big Data Technologies in Data Science
Zajišťuje: Katedra softwarového inženýrství (32-KSI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018
Semestr: letní
E-Kredity: 4
Rozsah, examinace: letní s.:1/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Garant: doc. RNDr. Irena Holubová, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Databázové systémy
Anotace -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
Prakticky zaměřený předmět navazující na úvodní přednášku (NDBI040) o Big Data technologiích. Cílem je naučit studenty na konkrétních úlohách jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat. Předmět je veden odborníky z firmy Profinit a odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Jan Hučín (07.02.2020)

V průběhu semestru se studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy typu Map/Reduce.

Zápočet bude udělena za kombinaci teoretického testu a vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.

Obsahem zkoušky bude diskuse k zápočtové úloze s významným přesahem do teoretických základů Hadoopu a jeho komponent.

Literatura -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
  • Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale 4th Edition, by Tom White, 4nd edition, Oreilly’s, 2015
  • Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst, Dean Abbott, Wiley 2014
  • Big Data a NoSQL databáze, Irena Holubová, Jiří Kosek, Karel Minařík, David Novák, Grada 2015

Sylabus -
Poslední úprava: Mgr. Jan Hučín (07.02.2020)

1. P: Přínos Big Data technologií v Data Science úlohách

C: Úvod do Hadoopu, zřízení přístupu na cluster

2. C: Technologie a znalosti pro Hadoop I. -- opakování a připomenutí (Linux, regulární výrazy, SQL)

3. P: Ukládání dat na Hadoopu -- HDFS, Hive, formáty a komprese

C: Ukládání data na Hadoopu -- praktické cvičení

4. C: MapReduce paradigma a typické praktické úlohy

5. P: Spark RDD

C: Technologie a znalosti pro Hadoop II. -- Python a jeho použití ve Sparku

6. C: Spark RDD -- praktické cvičení

7. P: Spark SQL

C: Spark RDD a SQL -- praktické cvičení

8. C: Data Science projekt a bigdatové technologie

9. výuka se nekoná (svátek)

10.--14. Data Science projekt a bigdatové technologie

 
Univerzita Karlova | Informační systém UK