Vizualizace velkých dat
Thesis title in thesis language (Slovak): | Vizualizace velkých dat |
---|---|
Thesis title in Czech: | Vizualizace velkých dat |
Thesis title in English: | Big data visualization |
Key words: | velká data, vizualizace, redukce dimenze, PCA, SVD |
English key words: | big data, visualization, dimension reduction, PCA, SVD |
Academic year of topic announcement: | 2017/2018 |
Thesis type: | Bachelor's thesis |
Thesis language: | slovenština |
Department: | Department of Software and Computer Science Education (32-KSVI) |
Supervisor: | RNDr. Josef Pelikán |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 05.03.2018 |
Date of assignment: | 04.04.2018 |
Confirmed by Study dept. on: | 06.04.2018 |
Date and time of defence: | 22.06.2018 09:00 |
Date of electronic submission: | 18.05.2018 |
Date of submission of printed version: | 18.05.2018 |
Date of proceeded defence: | 22.06.2018 |
Opponents: | RNDr. Jan Horáček, Ph.D. |
Guidelines |
Seznámit se s metodami vizualizace velkých dat, s podpůrnými statistickými metodami a přístupy používanými při redukci dimenze. Pro jednoduchost stačí uvažovat data ve formě objekt-atributy (jedna veliká relační tabulka, kde počet řádků může být řádově miliony až miliarda a počet atributů až několik stovek), případně - v případě zájmu - i časové řady (i zde uvažovat možnost mnoha atributů každé události). Seznámit se s metodami vykreslování velkých množin dat na platformě OpenGL, prozkoumat možnosti nejnovějších verzí OpenGL.
Cílem práce je vyvinout aplikaci pro vizualizaci velkých dat na běžném počítači či mobilním zařízení. Hlavní motivací je vytvořit snadno ovládaný a názorný systém pro prezentaci velkých dat, obohacený případně o další funkce jako shluková analýza, redukce dimenze (multidimensional scaling, PCA, SVD). Technické prostředky: C++ nebo C# a OpenGL pro zobrazení. V případě potřeby výpočetně velmi náročných operací uvažovat OpenCL nebo “compute shaders” z OpenGL. Použité algoritmy a přístupy by měly být v práci dobře dokumentovány, funkčnost vyvinutého SW by se měla ověřit na běžných vstupních datech (velká veřejně dostupná data lze najít na internetu, některé testovací datasety dodá vedoucí práce). |
References |
1. Tomas Akenine-Moller, Eric Haines, Naty Hoffman: Real-Time Rendering, Third Edition
2. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning (http://www-bcf.usc.edu/~gareth/ISL/) 3. The R Project for Statistical Computing (https://www.r-project.org/) 4. Rozcestník na otevřená data (https://www.kdnuggets.com/datasets/) 5. Walmart sales training data (https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data) |