Regularizace a výběr proměnných v regresních modelech
Název práce v češtině: | Regularizace a výběr proměnných v regresních modelech |
---|---|
Název v anglickém jazyce: | Regularization and variable selection in regression models |
Klíčová slova: | výběr proměnných v regresních modelech, obecný princip Boostingu, AdaBoost, L2Boosting |
Klíčová slova anglicky: | variable selection in regression models, general Boosting algorithm, AdaBoost, L2Boosting |
Akademický rok vypsání: | 2016/2017 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Katedra pravděpodobnosti a matematické statistiky (32-KPMS) |
Vedoucí / školitel: | doc. RNDr. Arnošt Komárek, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 23.10.2016 |
Datum zadání: | 23.10.2016 |
Datum potvrzení stud. oddělením: | 08.02.2017 |
Datum a čas obhajoby: | 13.09.2017 00:00 |
Datum odevzdání elektronické podoby: | 21.07.2017 |
Datum odevzdání tištěné podoby: | 21.07.2017 |
Datum proběhlé obhajoby: | 13.09.2017 |
Oponenti: | doc. RNDr. Matúš Maciak, Ph.D. |
Zásady pro vypracování |
Posluchač nastuduje a vlastními slovy popíše obecné principy regularizace a výběru proměnných v kontextu regresních modelů. Následně se práce více zaměří na metodu boosting, případně další. Zvolené metody budou matematicky rigorózním způsobem popsány s podrobným odvozením alespoň některých základních vlastností. Práce se dále, dle zájmu studenta, bude věnovat buď aplikaci na reálných datech nebo numerickým studiím s cílem prozkoumat některé, teoreticky obtížněji odvoditelné aspekty studovaných metod.
Zápis této DP vyžaduje úspěšné ukončení předmětu Lineární regrese (NMSA407). V rámci práce na DP nutno absolvovat povinně volitelné předměty: Pokročilé regresní modely (NMST432); Moderní statistické metody (NMST434). |
Seznam odborné literatury |
[1] Fahrmeir, L., Kneib, T., Lang, S., and Marx, B. (2013). Regression: Models, Methods and Applications. Berlin: Springer-Verlag, ISBN: 978-3-642-34332-2, doi: 10.1007/978-3-642-34333-9.
[2] Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. New York: Springer-Verlag, ISBN: 978-0-387-84857-0, doi: 10.1007/978-0-387-84858-7. [3] Miller, A. (2002). Subset Selection in Regression, Second Edition. Boca Raton: Chapman & Hall/CRC, ISBN: 1-58488-171-2. [4] Bühlmann, P. (2006). Boosting for high-dimensional linear models. The Annals of Statistics, 34(2), 559–583, doi: 10.1214/009053606000000092. [5] Bühlmann, P. and Hothorn, T. (2007). Boosting algorithms: Regularization, prediction and model fitting. Statistical Science, 22(4), 477–505, doi: 10.1214/07-STS242. [6] Bühlmann, P. and Yu, B. (2003). Boosting with the L2 loss: Regression and classification. Journal of the American Statistical Association, 98(462), 324–339, doi: 10.1198/016214503000125. [7] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2000). Least angle regression. The Annals of Statistics, 32(2), 407–499. doi: 10.1214/009053604000000067. [8] Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression: A statistical view of boosting. The Annals of Statistics, 28(2), 337–407. doi: 10.1214/aos/1016218223. [9] Tibshirani, R. (2011). Regression shrinkage and selection via the Lasso: A retrospective. Journal of the Royal Statistical Society, Series B, 73(3), 273–282, doi: 10.1111/j.1467-9868.2011.00771.x. [10] Tutz, G. and Binder, H. (2006). Generalized additive modelling with implicit variable selection by likelihood based boosting. Biometrics, 62(4), 961–971, doi: 10.1111/j.1541-0420.2006.00578.x. [11] Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B, 67(2), 301–320, doi: 10.1111/j.1467-9868.2005.00503.x. |
Předběžná náplň práce |
Výběrem proměnných v rámci statistické analýzy dat se typicky rozumí výběr regresorů z potenciálně velké množiny proměnných, které mají být zahrnuty v regresním modelu. Jedním ze základních postupů používaných v tomto kontextu a implementovaných ve většině statistických programových balíků je tzv. kroková regrese (stepwise regression). Tato však typicky nepřináší uspokojivé výsledky. V posledních přibližně 20-ti letech však byla vyvinuta celá řada sofistikovanějších a hlavně mnohem uspokojivějších metod, které obvykle úzce souvisejí s tzv. regularizací. Za všechny jmenujme (dnes již víceméně klasickou) metodu LASSO nebo další jako boosting, respektive LAR (least angle regression).
Viz http://msekce.karlin.mff.cuni.cz/~komarek/prace_dipl/dipl2016_1.html |