Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení

Thesis title in Czech:	Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení
Thesis title in English:	Big data - extraction of key information combining methods of mathematical statistics and machine learning
Key words:	penalizace nejmenších čtverců, iterativně vážené nejmenší čtverce, analýza hlavních komponent, řídkost, algoritmy pro AŘHK
English key words:	penalized least squares, iteratively reweighted least squares, principal component analysis, sparsity, algorithms for SPCA
Academic year of topic announcement:	2015/2016
Thesis type:	diploma thesis
Thesis language:	čeština
Department:	Department of Probability and Mathematical Statistics (32-KPMS)
Supervisor:	prof. RNDr. Jaromír Antoch, CSc.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	24.09.2015
Date of assignment:	09.10.2015
Confirmed by Study dept. on:	02.03.2016
Date and time of defence:	14.06.2017 00:00
Date of electronic submission:	19.05.2017
Date of submission of printed version:	12.05.2017
Date of proceeded defence:	14.06.2017
Opponents:	doc. RNDr. Matúš Maciak, Ph.D.

Guidelines

Vzhledem k všeobecné globalizaci na straně jedné, a zvětšování datových skladů na straně druhé, přibývají velmi rychle data. "Záplava dat" ve většině případů nutně nepřináší více informací, bohužel. Data též často velmi rychle ztrácejí vypovídající schopnost. Na druhé straně je přitom zřejmé, že majitelé dat by z nich rádi získávali co nejvíce informací, na jejichž základě by například mohli lépe cílit nabídku svých služeb, reklamu, apod. Autor této diplomové práce se soustředí především na problematiku /modelování velmi rozsáhlých dat v případě velmi velkých dat, kdy informace o jednotlivých objektech je použe omezená. Vedle metod vhodných pro segmentaci půjde také o komplexnější metody, například GAM, VGAM, lasso, apod. Práce též bude obsahovat aplikaci navržených a studovan7ch postupů na reálná data.

References

P. Bühlmann, S. van de Geer (2011) Statistics for high-dimensional data: methods, theory and applications. Springer, Heidelberg.

H. Chen, R.H.L. Chiang, V.C. Storey (2012) Business intelligence and analytics: From big data to big impact. MIS Quarterly 36 (4), 1165-1188,

T. Hastie, R. Tibshirani (1990) Generalized Additive Models. Chapman & Hall, Boca Raton.

T. Hastie, R. Tibshirani, J. Friedman (2013) The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed., 7th printing). Springer, Heidelberg.

M. Kuhn, K. Johnson (2013) Applied Predictive Modeling. Springer, Heidelberg.

K.P. Murphy (2012) Machine learning: A probabilistic perspective. Cambridge: MIT Press.

I.H. Witten, E. Frank, M.A. Hall (2011) Data Mining: Practical Machine Learning Tools and Techniques. The Morgan Kaufmann Series in Data Management Systems (3rd ed).

https://www.stat.auckland.ac.nz/~yee/

http://www.sap.com/Big_Data

https://www.google.cz/search?q=data+segmentation+and+big+data&ie=utf-8&oe=utf-8&gws_rd=cr&ei=J6kDVr-dHsb6UK3XIw