Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení
Thesis title in Czech: | Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení |
---|---|
Thesis title in English: | Big data - extraction of key information combining methods of mathematical statistics and machine learning |
Key words: | penalizace nejmenších čtverců, iterativně vážené nejmenší čtverce, analýza hlavních komponent, řídkost, algoritmy pro AŘHK |
English key words: | penalized least squares, iteratively reweighted least squares, principal component analysis, sparsity, algorithms for SPCA |
Academic year of topic announcement: | 2015/2016 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Probability and Mathematical Statistics (32-KPMS) |
Supervisor: | prof. RNDr. Jaromír Antoch, CSc. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 24.09.2015 |
Date of assignment: | 09.10.2015 |
Confirmed by Study dept. on: | 02.03.2016 |
Date and time of defence: | 14.06.2017 00:00 |
Date of electronic submission: | 19.05.2017 |
Date of submission of printed version: | 12.05.2017 |
Date of proceeded defence: | 14.06.2017 |
Opponents: | doc. RNDr. Matúš Maciak, Ph.D. |
Guidelines |
Vzhledem k všeobecné globalizaci na straně jedné, a zvětšování datových skladů na straně druhé, přibývají velmi rychle data. "Záplava dat" ve většině případů nutně nepřináší více informací, bohužel. Data též často velmi rychle ztrácejí vypovídající schopnost. Na druhé straně je přitom zřejmé, že majitelé dat by z nich rádi získávali co nejvíce informací, na jejichž základě by například mohli lépe cílit nabídku svých služeb, reklamu, apod. Autor této diplomové práce se soustředí především na problematiku /modelování velmi rozsáhlých dat v případě velmi velkých dat, kdy informace o jednotlivých objektech je použe omezená. Vedle metod vhodných pro segmentaci půjde také o komplexnější metody, například GAM, VGAM, lasso, apod. Práce též bude obsahovat aplikaci navržených a studovan7ch postupů na reálná data. |
References |
P. Bühlmann, S. van de Geer (2011) Statistics for high-dimensional data: methods, theory and applications. Springer, Heidelberg.
H. Chen, R.H.L. Chiang, V.C. Storey (2012) Business intelligence and analytics: From big data to big impact. MIS Quarterly 36 (4), 1165-1188, T. Hastie, R. Tibshirani (1990) Generalized Additive Models. Chapman & Hall, Boca Raton. T. Hastie, R. Tibshirani, J. Friedman (2013) The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed., 7th printing). Springer, Heidelberg. M. Kuhn, K. Johnson (2013) Applied Predictive Modeling. Springer, Heidelberg. K.P. Murphy (2012) Machine learning: A probabilistic perspective. Cambridge: MIT Press. I.H. Witten, E. Frank, M.A. Hall (2011) Data Mining: Practical Machine Learning Tools and Techniques. The Morgan Kaufmann Series in Data Management Systems (3rd ed). https://www.stat.auckland.ac.nz/~yee/ http://www.sap.com/Big_Data https://www.google.cz/search?q=data+segmentation+and+big+data&ie=utf-8&oe=utf-8&gws_rd=cr&ei=J6kDVr-dHsb6UK3XIw |