Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
Prakticky zaměřený předmět navazující na úvodní přednášku (NDBI040) o Big Data technologiích.
Cílem je naučit studenty na konkrétních úlohách jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat.
Předmět je veden odborníky z firmy Profinit a odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT.
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
Practically oriented course following the introductory lecture (NDBI040) on Big Data Technologies.
The aim is to teach students how to use Big Data technologies from the Hadoop and Spark family to analyze and process Big Data.
The course is taught by professionals from company Profinit and it is based on their experience from real-world Data Science projects in banking, telecommunication and IoT.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Jan Hučín (07.02.2020)
V průběhu semestru se studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy typu Map/Reduce.
Zápočet bude udělena za kombinaci teoretického testu a vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.
Obsahem zkoušky bude diskuse k zápočtové úloze s významným přesahem do teoretických základů Hadoopu a jeho komponent.
Poslední úprava: Mgr. Jan Hučín (07.02.2020)
During the semester students get access to the Hadoop Cluster Metacentrum and learn how to create large computational Map/Reduce tasks.
The credit will be granted according to combination of a theoretical test and a task based on a non-trivial analysis of a larger data set.
The oral exam includes a discussion over the task concerning theoretical fundaments of Hadoop and its components.
Literatura -
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale 4th Edition, by Tom White, 4nd edition, Oreilly’s, 2015
Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst, Dean Abbott, Wiley 2014
Big Data a NoSQL databáze, Irena Holubová, Jiří Kosek, Karel Minařík, David Novák, Grada 2015
Poslední úprava: RNDr. Michal Kopecký, Ph.D. (12.05.2018)
Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale 4th Edition, by Tom White, 4nd edition, Oreilly’s, 2015
Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst, Dean Abbott, Wiley 2014
Big Data a NoSQL databáze, Irena Holubová, Jiří Kosek, Karel Minařík, David Novák, Grada 2015
Sylabus -
Poslední úprava: doc. RNDr. Irena Holubová, Ph.D. (09.02.2021)
=====================
DŮLEŽITÉ UPOZORNĚNNÍ: Od LS 2021 předmět nebude vyučován. V ZS 2021 bude nahrazen novým, povinně volitelným předmětem.
=====================
1. P: Přínos Big Data technologií v Data Science úlohách
C: Úvod do Hadoopu, zřízení přístupu na cluster
2. C: Technologie a znalosti pro Hadoop I. -- opakování a připomenutí (Linux, regulární výrazy, SQL)
3. P: Ukládání dat na Hadoopu -- HDFS, Hive, formáty a komprese
C: Ukládání data na Hadoopu -- praktické cvičení
4. C: MapReduce paradigma a typické praktické úlohy
5. P: Spark RDD
C: Technologie a znalosti pro Hadoop II. -- Python a jeho použití ve Sparku
6. C: Spark RDD -- praktické cvičení
7. P: Spark SQL
C: Spark RDD a SQL -- praktické cvičení
8. C: Data Science projekt a bigdatové technologie
9. výuka se nekoná (svátek)
10.--14. Data Science projekt a bigdatové technologie
Poslední úprava: doc. RNDr. Irena Holubová, Ph.D. (09.02.2021)
=======================
IMPORTANT NOTIFICATION: From SS 2021 the course will not be taught. In WS 2021 it will be replaced with a new course.
=======================
1. L: Contribution of Big Data technologies in Data Science projects
P: Hadoop basics, cluster access
2. P: Technologies and knowledge for Hadoop I. -- refreshing (Linux, regular expressions, SQL)
3. L: Storing data on Hadoop -- HDFS, Hive, formats and compression
P: Storing dat on Hadoop -- practical classes
4. P: MapReduce approach and typical tasks for it
5. L: Spark RDD
P: Technologies and knowledge for Hadoop II. -- Python and usage in Spark
6. P: Spark RDD -- practical classes
7. L: Spark SQL
P: Spark RDD a SQL -- practical classes
8. P: Data Science project and big data technologies
9. no classes (holiday)
10.--14. Data Science project and big data technologies