Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení
Název práce v češtině: Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení
Název v anglickém jazyce: Big data - extraction of key information combining methods of mathematical statistics and machine learning
Klíčová slova: penalizace nejmenších čtverců, iterativně vážené nejmenší čtverce, analýza hlavních komponent, řídkost, algoritmy pro AŘHK
Klíčová slova anglicky: penalized least squares, iteratively reweighted least squares, principal component analysis, sparsity, algorithms for SPCA
Akademický rok vypsání: 2015/2016
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra pravděpodobnosti a matematické statistiky (32-KPMS)
Vedoucí / školitel: prof. RNDr. Jaromír Antoch, CSc.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 24.09.2015
Datum zadání: 09.10.2015
Datum potvrzení stud. oddělením: 02.03.2016
Datum a čas obhajoby: 14.06.2017 00:00
Datum odevzdání elektronické podoby:19.05.2017
Datum odevzdání tištěné podoby:12.05.2017
Datum proběhlé obhajoby: 14.06.2017
Oponenti: doc. RNDr. Matúš Maciak, Ph.D.
 
 
 
Zásady pro vypracování
Vzhledem k všeobecné globalizaci na straně jedné, a zvětšování datových skladů na straně druhé, přibývají velmi rychle data. "Záplava dat" ve většině případů nutně nepřináší více informací, bohužel. Data též často velmi rychle ztrácejí vypovídající schopnost. Na druhé straně je přitom zřejmé, že majitelé dat by z nich rádi získávali co nejvíce informací, na jejichž základě by například mohli lépe cílit nabídku svých služeb, reklamu, apod. Autor této diplomové práce se soustředí především na problematiku /modelování velmi rozsáhlých dat v případě velmi velkých dat, kdy informace o jednotlivých objektech je použe omezená. Vedle metod vhodných pro segmentaci půjde také o komplexnější metody, například GAM, VGAM, lasso, apod. Práce též bude obsahovat aplikaci navržených a studovan7ch postupů na reálná data.
Seznam odborné literatury
P. Bühlmann, S. van de Geer (2011) Statistics for high-dimensional data: methods, theory and applications. Springer, Heidelberg.

H. Chen, R.H.L. Chiang, V.C. Storey (2012) Business intelligence and analytics: From big data to big impact. MIS Quarterly 36 (4), 1165-1188,

T. Hastie, R. Tibshirani (1990) Generalized Additive Models. Chapman & Hall, Boca Raton.

T. Hastie, R. Tibshirani, J. Friedman (2013) The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed., 7th printing). Springer, Heidelberg.

M. Kuhn, K. Johnson (2013) Applied Predictive Modeling. Springer, Heidelberg.

K.P. Murphy (2012) Machine learning: A probabilistic perspective. Cambridge: MIT Press.

I.H. Witten, E. Frank, M.A. Hall (2011) Data Mining: Practical Machine Learning Tools and Techniques. The Morgan Kaufmann Series in Data Management Systems (3rd ed).

https://www.stat.auckland.ac.nz/~yee/

http://www.sap.com/Big_Data

https://www.google.cz/search?q=data+segmentation+and+big+data&ie=utf-8&oe=utf-8&gws_rd=cr&ei=J6kDVr-dHsb6UK3XIw
 
Univerzita Karlova | Informační systém UK