Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Regularizace a výběr proměnných v regresních modelech

Název práce v češtině:	Regularizace a výběr proměnných v regresních modelech
Název v anglickém jazyce:	Regularization and variable selection in regression models
Klíčová slova:	výběr proměnných v regresních modelech, obecný princip Boostingu, AdaBoost, L2Boosting
Klíčová slova anglicky:	variable selection in regression models, general Boosting algorithm, AdaBoost, L2Boosting
Akademický rok vypsání:	2016/2017
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Katedra pravděpodobnosti a matematické statistiky (32-KPMS)
Vedoucí / školitel:	doc. RNDr. Arnošt Komárek, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	23.10.2016
Datum zadání:	23.10.2016
Datum potvrzení stud. oddělením:	08.02.2017
Datum a čas obhajoby:	13.09.2017 00:00
Datum odevzdání elektronické podoby:	21.07.2017
Datum odevzdání tištěné podoby:	21.07.2017
Datum proběhlé obhajoby:	13.09.2017
Oponenti:	doc. RNDr. Matúš Maciak, Ph.D.

Zásady pro vypracování

Posluchač nastuduje a vlastními slovy popíše obecné principy regularizace a výběru proměnných v kontextu regresních modelů. Následně se práce více zaměří na metodu boosting, případně další. Zvolené metody budou matematicky rigorózním způsobem popsány s podrobným odvozením alespoň některých základních vlastností. Práce se dále, dle zájmu studenta, bude věnovat buď aplikaci na reálných datech nebo numerickým studiím s cílem prozkoumat některé, teoreticky obtížněji odvoditelné aspekty studovaných metod.

Zápis této DP vyžaduje úspěšné ukončení předmětu Lineární regrese (NMSA407). V rámci práce na DP nutno absolvovat povinně volitelné předměty: Pokročilé regresní modely (NMST432); Moderní statistické metody (NMST434).

Seznam odborné literatury

[1] Fahrmeir, L., Kneib, T., Lang, S., and Marx, B. (2013). Regression: Models, Methods and Applications. Berlin: Springer-Verlag, ISBN: 978-3-642-34332-2, doi: 10.1007/978-3-642-34333-9.
[2] Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. New York: Springer-Verlag, ISBN: 978-0-387-84857-0, doi: 10.1007/978-0-387-84858-7.
[3] Miller, A. (2002). Subset Selection in Regression, Second Edition. Boca Raton: Chapman & Hall/CRC, ISBN: 1-58488-171-2.

[4] Bühlmann, P. (2006). Boosting for high-dimensional linear models. The Annals of Statistics, 34(2), 559–583, doi: 10.1214/009053606000000092.
[5] Bühlmann, P. and Hothorn, T. (2007). Boosting algorithms: Regularization, prediction and model fitting. Statistical Science, 22(4), 477–505, doi: 10.1214/07-STS242.
[6] Bühlmann, P. and Yu, B. (2003). Boosting with the L2 loss: Regression and classification. Journal of the American Statistical Association, 98(462), 324–339, doi: 10.1198/016214503000125.
[7] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2000). Least angle regression. The Annals of Statistics, 32(2), 407–499. doi: 10.1214/009053604000000067.
[8] Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression: A statistical view of boosting. The Annals of Statistics, 28(2), 337–407. doi: 10.1214/aos/1016218223.
[9] Tibshirani, R. (2011). Regression shrinkage and selection via the Lasso: A retrospective. Journal of the Royal Statistical Society, Series B, 73(3), 273–282, doi: 10.1111/j.1467-9868.2011.00771.x.
[10] Tutz, G. and Binder, H. (2006). Generalized additive modelling with implicit variable selection by likelihood based boosting. Biometrics, 62(4), 961–971, doi: 10.1111/j.1541-0420.2006.00578.x.
[11] Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B, 67(2), 301–320, doi: 10.1111/j.1467-9868.2005.00503.x.

Předběžná náplň práce

Výběrem proměnných v rámci statistické analýzy dat se typicky rozumí výběr regresorů z potenciálně velké množiny proměnných, které mají být zahrnuty v regresním modelu. Jedním ze základních postupů používaných v tomto kontextu a implementovaných ve většině statistických programových balíků je tzv. kroková regrese (stepwise regression). Tato však typicky nepřináší uspokojivé výsledky. V posledních přibližně 20-ti letech však byla vyvinuta celá řada sofistikovanějších a hlavně mnohem uspokojivějších metod, které obvykle úzce souvisejí s tzv. regularizací. Za všechny jmenujme (dnes již víceméně klasickou) metodu LASSO nebo další jako boosting, respektive LAR (least angle regression).

Viz http://msekce.karlin.mff.cuni.cz/~komarek/prace_dipl/dipl2016_1.html