Vizualizace velkých dat
Název práce v jazyce práce (slovenština): | Vizualizace velkých dat |
---|---|
Název práce v češtině: | Vizualizace velkých dat |
Název v anglickém jazyce: | Big data visualization |
Klíčová slova: | velká data, vizualizace, redukce dimenze, PCA, SVD |
Klíčová slova anglicky: | big data, visualization, dimension reduction, PCA, SVD |
Akademický rok vypsání: | 2017/2018 |
Typ práce: | bakalářská práce |
Jazyk práce: | slovenština |
Ústav: | Katedra softwaru a výuky informatiky (32-KSVI) |
Vedoucí / školitel: | RNDr. Josef Pelikán |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 05.03.2018 |
Datum zadání: | 04.04.2018 |
Datum potvrzení stud. oddělením: | 06.04.2018 |
Datum a čas obhajoby: | 22.06.2018 09:00 |
Datum odevzdání elektronické podoby: | 18.05.2018 |
Datum odevzdání tištěné podoby: | 18.05.2018 |
Datum proběhlé obhajoby: | 22.06.2018 |
Oponenti: | RNDr. Jan Horáček, Ph.D. |
Zásady pro vypracování |
Seznámit se s metodami vizualizace velkých dat, s podpůrnými statistickými metodami a přístupy používanými při redukci dimenze. Pro jednoduchost stačí uvažovat data ve formě objekt-atributy (jedna veliká relační tabulka, kde počet řádků může být řádově miliony až miliarda a počet atributů až několik stovek), případně - v případě zájmu - i časové řady (i zde uvažovat možnost mnoha atributů každé události). Seznámit se s metodami vykreslování velkých množin dat na platformě OpenGL, prozkoumat možnosti nejnovějších verzí OpenGL.
Cílem práce je vyvinout aplikaci pro vizualizaci velkých dat na běžném počítači či mobilním zařízení. Hlavní motivací je vytvořit snadno ovládaný a názorný systém pro prezentaci velkých dat, obohacený případně o další funkce jako shluková analýza, redukce dimenze (multidimensional scaling, PCA, SVD). Technické prostředky: C++ nebo C# a OpenGL pro zobrazení. V případě potřeby výpočetně velmi náročných operací uvažovat OpenCL nebo “compute shaders” z OpenGL. Použité algoritmy a přístupy by měly být v práci dobře dokumentovány, funkčnost vyvinutého SW by se měla ověřit na běžných vstupních datech (velká veřejně dostupná data lze najít na internetu, některé testovací datasety dodá vedoucí práce). |
Seznam odborné literatury |
1. Tomas Akenine-Moller, Eric Haines, Naty Hoffman: Real-Time Rendering, Third Edition
2. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning (http://www-bcf.usc.edu/~gareth/ISL/) 3. The R Project for Statistical Computing (https://www.r-project.org/) 4. Rozcestník na otevřená data (https://www.kdnuggets.com/datasets/) 5. Walmart sales training data (https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data) |