Thesis (Selection of subject)Thesis (Selection of subject)(version: 285)
Assignment details
   Login via CAS
Generator of Big JSON Data for NoSQL Document Databases
Thesis title in Czech: Generator of Big JSON Data for NoSQL Document Databases
Thesis title in English: Generator of Big JSON Data for NoSQL Document Databases
Key words: Big Data, JSON, data generating, document databases
English key words: Big Data, JSON, data generating, document databases
Academic year of topic announcement: 2018/2019
Type of assignment: diploma thesis
Thesis language: angličtina
Department: Department of Software Engineering (32-KSI)
Supervisor: doc. RNDr. Irena Holubová, Ph.D.
Author:
Guidelines
Currently there exist more and more problems related to Big Data and thus also lots of proposals of their solutions. However, for various reasons (e.g., price, confidentiality or access rights) it is difficult to acquire the data to verify the solution.

The aim of the thesis is to propose and implement a tool which will enable to extend a given set of JSON documents to the scale of Big Data. The “inflated” data will be of similar structure, including mutual references, possible differences in structure, errors etc. and it will be generated in an effective way. The solution will be simple to use in a default mode, but it will also enable various user settings influencing the target data. The features of the result will demonstrated experimentally using at least one NoSQL document database (e.g., MongoDB).
References
Holubová, I. - Kosek, J. - Minařík, K. - Novák, D.: Big Data a NoSQL databáze. Grada, Praha, Česká republika, říjen 2015. ISBN 978-80-247-5466-6. (http://www.ksi.mff.cuni.cz/bigdata/)

Betik, R.: Automatic Generation of Synthetic XML Documents. Master Thesis, MFF UK, September 2015. http://www.ksi.mff.cuni.cz/~holubova/dp/Betik.pdf

BigDataBench, A Big Data Benchmark Suite. ICT, Chinese Academy of Sciences. http://prof.ict.ac.cn/BigDataBench

Ming, Z. - Luo, C. - Gao, W. - Han, R. - Yang, H. - Wang, L. - Zhan, J.: BDGS: A Scalable Big Data Generator Suite in Big Data Benchmarking. CoRR abs/1401.5465 (2014). http://arxiv.org/abs/1401.5465

Sherif Sakr, Mohamed Gaber: Large Scale and Big Data: Processing and Management.

Rabl, T.: Big Data Generation. Middleware System Research Group, University of Toronto.

Transaction Processing Performace Council (TPC): http://www.tpc.org/
Preliminary scope of work
Předpokládaným (i když ne jediným možným) cílem práce je rozšířit práci Romana Betíka (viz seznam odborné literatury), která již jednodušší řešení navrhuje a částečně implementuje. Vzhledem k časovým možnostem to však bylo zpracováno pouze v omezeném rozsahu. Druhou možností samozřejmě je, že autor práce navrhne zcela nový přístup. V obou případech se předpokládá, že bude řešení implementováno a experimentálně zhodnoceno.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html