Thesis (Selection of subject)Thesis (Selection of subject)(version: 285)
Assignment details
   Login via CAS
Srovnání nástrojů pro proudové a dávkové zpracování velkých dat
Thesis title in Czech: Srovnání nástrojů pro proudové a dávkové zpracování velkých dat
Thesis title in English: Comparison of Tools for Stream and Batch Processing of Big Data
Key words: Big Data, proudové zpracování, dávkové zpracování, srovnávací analýza
English key words: Big Data, stream processing, batch processing, comparative analysis
Academic year of topic announcement: 2018/2019
Type of assignment: diploma thesis
Thesis language:
Department: Department of Software Engineering (32-KSI)
Supervisor: doc. RNDr. Irena Holubová, Ph.D.
Author:
Guidelines
Cílem práce je vytvořit ucelený přehled o aktuálním stavu dostupných open-source nástrojů pro zpracování velkých dat (Big Data) s přihlédnutím k rozdílům mezi zpracováním dávkových a proudových dat. Výstupem bude srovnání klíčových parametrů, omezení a výkonosti jednotlivých řešení.
Předpokládanými technologiemi ke srovnání jsou Apache MapReduce, Apache Spark, Apache Flink, Apache Storm, Apache Apex, Euphoria a Apache Beam. Poslední dvě technologie jsou nadstavbová API, která se překládají do API konkrétních podkladových technologií. Srovnávací testy bude možné provádět na Hadoop clusteru (desítky až stovky uzlů) a datech robota vyhledávače společnosti Seznam.cz.
References
Apache MapReduce https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

Apache Spark http://spark.apache.org/

Apache Flink https://flink.apache.org/

Apache Storm http://storm.apache.org/

Apache Apex http://apex.apache.org/

Euphoria https://github.com/seznam/euphoria

Apache Beam https://beam.apache.org/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html