Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Regularizace a výběr proměnných v regresních modelech
Název práce v češtině: Regularizace a výběr proměnných v regresních modelech
Název v anglickém jazyce: Regularization and variable selection in regression models
Klíčová slova: výběr proměnných v regresních modelech, obecný princip Boostingu, AdaBoost, L2Boosting
Klíčová slova anglicky: variable selection in regression models, general Boosting algorithm, AdaBoost, L2Boosting
Akademický rok vypsání: 2016/2017
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra pravděpodobnosti a matematické statistiky (32-KPMS)
Vedoucí / školitel: doc. RNDr. Arnošt Komárek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 23.10.2016
Datum zadání: 23.10.2016
Datum potvrzení stud. oddělením: 08.02.2017
Datum a čas obhajoby: 13.09.2017 00:00
Datum odevzdání elektronické podoby:21.07.2017
Datum odevzdání tištěné podoby:21.07.2017
Datum proběhlé obhajoby: 13.09.2017
Oponenti: doc. RNDr. Matúš Maciak, Ph.D.
 
 
 
Zásady pro vypracování
Posluchač nastuduje a vlastními slovy popíše obecné principy regularizace a výběru proměnných v kontextu regresních modelů. Následně se práce více zaměří na metodu boosting, případně další. Zvolené metody budou matematicky rigorózním způsobem popsány s podrobným odvozením alespoň některých základních vlastností. Práce se dále, dle zájmu studenta, bude věnovat buď aplikaci na reálných datech nebo numerickým studiím s cílem prozkoumat některé, teoreticky obtížněji odvoditelné aspekty studovaných metod.

Zápis této DP vyžaduje úspěšné ukončení předmětu Lineární regrese (NMSA407). V rámci práce na DP nutno absolvovat povinně volitelné předměty: Pokročilé regresní modely (NMST432); Moderní statistické metody (NMST434).
Seznam odborné literatury
[1] Fahrmeir, L., Kneib, T., Lang, S., and Marx, B. (2013). Regression: Models, Methods and Applications. Berlin: Springer-Verlag, ISBN: 978-3-642-34332-2, doi: 10.1007/978-3-642-34333-9.
[2] Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. New York: Springer-Verlag, ISBN: 978-0-387-84857-0, doi: 10.1007/978-0-387-84858-7.
[3] Miller, A. (2002). Subset Selection in Regression, Second Edition. Boca Raton: Chapman & Hall/CRC, ISBN: 1-58488-171-2.

[4] Bühlmann, P. (2006). Boosting for high-dimensional linear models. The Annals of Statistics, 34(2), 559–583, doi: 10.1214/009053606000000092.
[5] Bühlmann, P. and Hothorn, T. (2007). Boosting algorithms: Regularization, prediction and model fitting. Statistical Science, 22(4), 477–505, doi: 10.1214/07-STS242.
[6] Bühlmann, P. and Yu, B. (2003). Boosting with the L2 loss: Regression and classification. Journal of the American Statistical Association, 98(462), 324–339, doi: 10.1198/016214503000125.
[7] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2000). Least angle regression. The Annals of Statistics, 32(2), 407–499. doi: 10.1214/009053604000000067.
[8] Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression: A statistical view of boosting. The Annals of Statistics, 28(2), 337–407. doi: 10.1214/aos/1016218223.
[9] Tibshirani, R. (2011). Regression shrinkage and selection via the Lasso: A retrospective. Journal of the Royal Statistical Society, Series B, 73(3), 273–282, doi: 10.1111/j.1467-9868.2011.00771.x.
[10] Tutz, G. and Binder, H. (2006). Generalized additive modelling with implicit variable selection by likelihood based boosting. Biometrics, 62(4), 961–971, doi: 10.1111/j.1541-0420.2006.00578.x.
[11] Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B, 67(2), 301–320, doi: 10.1111/j.1467-9868.2005.00503.x.
Předběžná náplň práce
Výběrem proměnných v rámci statistické analýzy dat se typicky rozumí výběr regresorů z potenciálně velké množiny proměnných, které mají být zahrnuty v regresním modelu. Jedním ze základních postupů používaných v tomto kontextu a implementovaných ve většině statistických programových balíků je tzv. kroková regrese (stepwise regression). Tato však typicky nepřináší uspokojivé výsledky. V posledních přibližně 20-ti letech však byla vyvinuta celá řada sofistikovanějších a hlavně mnohem uspokojivějších metod, které obvykle úzce souvisejí s tzv. regularizací. Za všechny jmenujme (dnes již víceméně klasickou) metodu LASSO nebo další jako boosting, respektive LAR (least angle regression).

Viz http://msekce.karlin.mff.cuni.cz/~komarek/prace_dipl/dipl2016_1.html
 
Univerzita Karlova | Informační systém UK