Klasifikace na základě longitudinálních pozorování
Název práce v češtině: | Klasifikace na základě longitudinálních pozorování |
---|---|
Název v anglickém jazyce: | Classification based on longitudinal observations |
Klíčová slova: | lineární smíšený model, longitudinální data, diskriminační analýza, Bayesova věta |
Klíčová slova anglicky: | linear mixed-effects model, longitudinal data, discriminant analysis, Bayes' theorem |
Akademický rok vypsání: | 2010/2011 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Katedra pravděpodobnosti a matematické statistiky (32-KPMS) |
Vedoucí / školitel: | prof. RNDr. Arnošt Komárek, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 11.10.2010 |
Datum zadání: | 11.10.2010 |
Datum a čas obhajoby: | 14.05.2012 00:00 |
Datum odevzdání elektronické podoby: | 11.04.2012 |
Datum odevzdání tištěné podoby: | 11.04.2012 |
Datum proběhlé obhajoby: | 14.05.2012 |
Oponenti: | doc. Mgr. Michal Kulich, Ph.D. |
Zásady pro vypracování |
Posluchač během prvního roku studia, v návaznosti na absolvování předmětu Regrese (NSTP194+195), samostatně nastuduje problematiku lineárních smíšených modelů, jež jsou základem pro modelování longitudinálních pozorování. Následně budou v literatuře nastudovány dostupné přístupy pro klasifikaci longitudinálních pozorování založené na lineárním smíšeném modelu. V závislosti na zájmu posluchače je možné se více zaměřit buď na diskriminační analýzu (k dispozici tréninková data) nebo na shlukovou analýzu (nejsou k dispozici tréninková data). Jednotlivé přístupy budou v práci precizně matematicky popsány při jednotném značení, vybrané vlastnosti budou detailně odvozeny a zdůvodněny. Práce bude též obsahovat aplikaci na reálná data či simulační studii porovnávající jednotlivé přístupy.
V průběhu 1. ročníku navazujícího magisterského studia nutno absolvovat následující předměty * Regrese včetně cvičení (NSTP194+195) * Mnohorozměrná statistická analýza (NSTP018) Odborná literatura bude vesměs v angličtině, diplomová práce bude psána česky nebo slovensky. |
Seznam odborné literatury |
Brant, L. J., Sheng, S. L., Morrell, C. H., Verbeke, G. N., Lesaffre, E., and Carter, H. B. (2003). Screening for prostate cancer by using random-effects models. Journal of the Royal Statistical Society, Series A, 166, 51-62.
De la Cruz-Mesía, R., Quintana, F. A., and Marshall, G. (2008). Model-based clustering for longitudinal data. Computational Statistics and Data Analysis, 52, 1441-1457. James, G. M. and Sugar, C. A. (2003). Clustering for sparsely sampled functional data. Journal of the American Statistical Association, 98, 397-408. Marshall, G. and Barón, A. E. (2000). Linear discriminant models for unbalanced longitudinal data. Statistics in Medicine, 19, 1969-1981. Marshall, G., De la Cruz-Mesa, R., Quintana, F. A., and Baron, A. E. (2009). Discriminant analysis for longitudinal data with multiple continuous responses and possibly missing data. Biometrics, 65, 69-80. Morrell, C. H., Brant, L. J., and Sheng, S. (2007). Comparing approaches for predicting prostate cancer from longitudinal data. In 2007 Proceedings of the American Statistical Association, Biometrics Section, pages 127-133, Alexandria, 2007. American Statistical Association. Tomasko, L., Helms, R. W., and Snapinn, S. M. (1999). A discriminant analysis extension to mixed models. Statistics in Medicine, 18, 1249-1260. Villarroel, L., Marshall, G., and Barón, A. E. (2009). Cluster analysis using multivariate mixed effects models. Statistics in Medicine, 28, 2552-2565. Verbeke, G. and Lesaffre, E. (1996). A linear mixed-effects model with heterogeneity in the random-effects population. Journal of the American Statistical Association, 91, 217-221. Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. New York: Springer. ISBN 0-387-95027-3. Wernecke, K.-D., Kalb, G., Schink, T., and Wegner, B. (2004). A mixed model approach to discriminant analysis with longitudinal data. Biometrical Journal, 46, 246-254. |
Předběžná náplň práce |
S longitudinálními pozorováními se setkáváme všude tam, kde u jednotek zahrnutých do studie opakovaně (nejčastěji v čase) zjišťujeme údaje, které nás zajímají. Napozorované hodnoty lze následně použít pro klasifikaci jednotek do skupin obdodobně jako v rámci klasické diskriminační či shlukové analýzy. Tyto metody v jejich klasické formě založené na náhodném výběru z vícerozměrného normálního rozdělení však obvykle nelze použít a to z toho důvodu, že typická longitudinální data se vyznačují dvěma hlavními rysy:
1. počet pozorování u jednotlivých jednotek (subjektů) není konstantní, 2. jednotlivá pozorování nejsou prováděna ve stejných časech pro všechny jednotky. Nelze tudíž předpokládat, že náhodné vektory reprezentující napozorovaná data u jednotlivých jednotek tvoří náhodný výběr z vícerozměrného rozdělení. V průběhu posledních 15 let však bylo v literatuře popsáno nespočet přístupů pro klasifikaci na základě longitudinálních dat vesměs kombinujících v nějaké formě lineární smíšený model s klasickými přístupy ke klasifikaci. Aplikace lze nalézt jak v medicíně (určení diagnózy či prognózy na základě opakovaných měření jistého ukazatele) tak ve financích (určení schopnosti splácet úvěr na základě historických údajů souvisejících s bonitou klienta), ale i jinde. |