Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Vizualizace velkých dat
Thesis title in thesis language (Slovak): Vizualizace velkých dat
Thesis title in Czech: Vizualizace velkých dat
Thesis title in English: Big data visualization
Key words: velká data, vizualizace, redukce dimenze, PCA, SVD
English key words: big data, visualization, dimension reduction, PCA, SVD
Academic year of topic announcement: 2017/2018
Thesis type: Bachelor's thesis
Thesis language: slovenština
Department: Department of Software and Computer Science Education (32-KSVI)
Supervisor: RNDr. Josef Pelikán
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 05.03.2018
Date of assignment: 04.04.2018
Confirmed by Study dept. on: 06.04.2018
Date and time of defence: 22.06.2018 09:00
Date of electronic submission:18.05.2018
Date of submission of printed version:18.05.2018
Date of proceeded defence: 22.06.2018
Opponents: RNDr. Jan Horáček, Ph.D.
 
 
 
Guidelines
Seznámit se s metodami vizualizace velkých dat, s podpůrnými statistickými metodami a přístupy používanými při redukci dimenze. Pro jednoduchost stačí uvažovat data ve formě objekt-atributy (jedna veliká relační tabulka, kde počet řádků může být řádově miliony až miliarda a počet atributů až několik stovek), případně - v případě zájmu - i časové řady (i zde uvažovat možnost mnoha atributů každé události). Seznámit se s metodami vykreslování velkých množin dat na platformě OpenGL, prozkoumat možnosti nejnovějších verzí OpenGL.

Cílem práce je vyvinout aplikaci pro vizualizaci velkých dat na běžném počítači či mobilním zařízení. Hlavní motivací je vytvořit snadno ovládaný a názorný systém pro prezentaci velkých dat, obohacený případně o další funkce jako shluková analýza, redukce dimenze (multidimensional scaling, PCA, SVD). Technické prostředky: C++ nebo C# a OpenGL pro zobrazení. V případě potřeby výpočetně velmi náročných operací uvažovat OpenCL nebo “compute shaders” z OpenGL.

Použité algoritmy a přístupy by měly být v práci dobře dokumentovány, funkčnost vyvinutého SW by se měla ověřit na běžných vstupních datech (velká veřejně dostupná data lze najít na internetu, některé testovací datasety dodá vedoucí práce).
References
1. Tomas Akenine-Moller, Eric Haines, Naty Hoffman: Real-Time Rendering, Third Edition
2. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning (http://www-bcf.usc.edu/~gareth/ISL/)
3. The R Project for Statistical Computing (https://www.r-project.org/)
4. Rozcestník na otevřená data (https://www.kdnuggets.com/datasets/)
5. Walmart sales training data (https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data)
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html