Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Vizualizace velkých dat
Název práce v jazyce práce (slovenština): Vizualizace velkých dat
Název práce v češtině: Vizualizace velkých dat
Název v anglickém jazyce: Big data visualization
Klíčová slova: velká data, vizualizace, redukce dimenze, PCA, SVD
Klíčová slova anglicky: big data, visualization, dimension reduction, PCA, SVD
Akademický rok vypsání: 2017/2018
Typ práce: bakalářská práce
Jazyk práce: slovenština
Ústav: Katedra softwaru a výuky informatiky (32-KSVI)
Vedoucí / školitel: RNDr. Josef Pelikán
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 05.03.2018
Datum zadání: 04.04.2018
Datum potvrzení stud. oddělením: 06.04.2018
Datum a čas obhajoby: 22.06.2018 09:00
Datum odevzdání elektronické podoby:18.05.2018
Datum odevzdání tištěné podoby:18.05.2018
Datum proběhlé obhajoby: 22.06.2018
Oponenti: RNDr. Jan Horáček, Ph.D.
 
 
 
Zásady pro vypracování
Seznámit se s metodami vizualizace velkých dat, s podpůrnými statistickými metodami a přístupy používanými při redukci dimenze. Pro jednoduchost stačí uvažovat data ve formě objekt-atributy (jedna veliká relační tabulka, kde počet řádků může být řádově miliony až miliarda a počet atributů až několik stovek), případně - v případě zájmu - i časové řady (i zde uvažovat možnost mnoha atributů každé události). Seznámit se s metodami vykreslování velkých množin dat na platformě OpenGL, prozkoumat možnosti nejnovějších verzí OpenGL.

Cílem práce je vyvinout aplikaci pro vizualizaci velkých dat na běžném počítači či mobilním zařízení. Hlavní motivací je vytvořit snadno ovládaný a názorný systém pro prezentaci velkých dat, obohacený případně o další funkce jako shluková analýza, redukce dimenze (multidimensional scaling, PCA, SVD). Technické prostředky: C++ nebo C# a OpenGL pro zobrazení. V případě potřeby výpočetně velmi náročných operací uvažovat OpenCL nebo “compute shaders” z OpenGL.

Použité algoritmy a přístupy by měly být v práci dobře dokumentovány, funkčnost vyvinutého SW by se měla ověřit na běžných vstupních datech (velká veřejně dostupná data lze najít na internetu, některé testovací datasety dodá vedoucí práce).
Seznam odborné literatury
1. Tomas Akenine-Moller, Eric Haines, Naty Hoffman: Real-Time Rendering, Third Edition
2. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: An Introduction to Statistical Learning (http://www-bcf.usc.edu/~gareth/ISL/)
3. The R Project for Statistical Computing (https://www.r-project.org/)
4. Rozcestník na otevřená data (https://www.kdnuggets.com/datasets/)
5. Walmart sales training data (https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data)
 
Univerzita Karlova | Informační systém UK