The course introduces methods used for processing huge data sets in distributed environment. Technological
difficulties occurring in such environments are explained in the introductory sessions. The presentation of the
(Sun/Oracle/Son of) Grid Engine will follow. Then the MapReduce framework will be introduced. The main part of
the course will be devoted to the Apache Spark framework, which is a spiritual successor to Hadoop. Depending
on the audience interest, the final sessions can be devoted to OpenMPI framework or distributed machine learning
algorithms (MLlib, Mahout, Vowpal Wabbit).
Last update: T_UFAL (05.05.2015)
Cílem předmětu je seznámit studenty s přístupy ke zpracování velkých dat v distribuovaném prostředí. Úvod kurzu
bude věnován technologickým problémům, které se v tomto prostředí vyskytují. Poté bude následovat představení
(Sun/Oracle/Son of) Grid Engine a souvisejících nástrojů. Dále budou posluchači seznámeni s konceptem
MapReduce. Hlavní část předmětu bude věnována frameworku Apache Spark, následníkovi Hadoop frameworku.
Podle zájmu posluchačů bude závěr kurzu věnován OpenMPI frameworku či distribuovaným algoritmům
strojového učení (MLlib, Mahout, Vowpal Wabbit).
Literature -
Last update: T_UFAL (05.05.2015)
Data-Intensive Text Processing with MapReduce; Jimmy Lin and Chris Dyer.; Morgan & Claypool Publishers, 2010
Hadoop: The Definitive Guide; Tom White; 2010
Son of Grid Engine - https://arc.liv.ac.uk/trac/SGE