Analýza chýbajúcich hodnot: porovnávanie vhodnosti tradičných metód naprieč mechanizmami
Thesis title in thesis language (Slovak): | Analýza chýbajúcich hodnot: porovnávanie vhodnosti tradičných metód naprieč mechanizmami |
---|---|
Thesis title in Czech: | Analýza chybějících hodnot: porovnání vhodnosti tradičních metod napříč mechanismy |
Thesis title in English: | Analysis of Missing Data: Comparing Performance of Traditional Methods across Mechanisms |
Key words: | chýbajúce hodnoty, mechanizmy chýbajúcich hodnôt, metódy založené na vynechávaní prípadov, metódy nahrádzania,simulácie,vychýlenie, štatistické usudzovanie |
English key words: | missing data, missing data mechanisms, deletion methods, imputation methods,simulations, bias, statistical inference |
Academic year of topic announcement: | 2010/2011 |
Thesis type: | diploma thesis |
Thesis language: | slovenština |
Department: | Department of Sociology (23-KS) |
Supervisor: | PhDr. Ing. Petr Soukup, Ph.D. |
Author: | hidden - assigned by the advisor |
Date of registration: | 07.06.2011 |
Date of assignment: | 07.06.2011 |
Date and time of defence: | 17.09.2014 00:00 |
Venue of defence: | Jinonice, U Kříže 8, Praha 5 |
Date of electronic submission: | 06.08.2014 |
Date of proceeded defence: | 17.09.2014 |
Opponents: | prof. RNDr. Jan Hendl, CSc. |
URKUND check: |
References |
Allison, P. D. 2001. Missing data. Thousand Oaks: Sage.
Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37. Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press. Graham, J. W.; Taylor, B. J.; Olchowski, A. E.; Cumsille, P. E. 2006. „Planned missing data designs in psychological research“. Psychological Methods 11(4): 323-343. Little, R. J. A. 1992. „Regression with Missing X´s: A Review“. Journal of the American Statistical Association 87: 1227-1237. Little, R. J. A.; Rubin, D. B. 2002. Statistical Analysis with Missing Data. Hoboken: Wiley. Longford, N. T. 2005. Missing Data and Small-Area Estimation. New York: Springer. McKnight, P. E.; McKnight, K. M.; Sidani, S.; Figueredo, A. J. 2007. Missing Data: A Gentle Introduction. New York: The Guilford Press. Rubin, D. B. 1976. „Inference and Missing Data“. Biometrika 63 (3): 581-592. Rubin, D. B. 1987. Multiple Imputation for Nonresponse in Surveys. Hoboken: Wiley. Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177. |
Preliminary scope of work |
Chýbajúce hodnoty sú takmer všadeprítomným javom kvantitatívnych spoločenskovedných výskumov. Situácie, keď respondenti odmietnu odpovedať alebo nevedia odpovedať na otázku sú viac ako bežné. Absencia platných hodnôt premenných môže byť spôsobená aj realizátormi výskumu (napr. vynechanie otázky tázateľom, chyba pri prepise dát atď.). Chýbajúce hodnoty v dátach môžu pri niektorých analýzach drasticky zredukovať počet prípadov na ktorých sa daná analýza spočíta. To môže viesť ku skresleným výsledkom alebo nesprávnym záverom, a zároveň odkazuje na nie úplne efektívne využívanie finančných zdrojov určených na výskum. Metodologická literatúra v anglickom jazyku sa problému chýbajúcich hodnôt venuje už niekoľko desaťročí. V bývalom Československu sa tomuto problému v literatúre doteraz nepripisovala takmer žiadna pozornosť. Vo svojej diplomovej práci by som preto chcel prispieť k predstaveniu problematiky analýzy chýbajúcich hodnôt českým a slovenským čitateľom.
V diplomovej práci budem vychádzať z prác štatistikov Rubina a Littla, ktorí definovali tri takzvané mechanizmy chýbajúcich hodnôt (t.j. možné vzťahy medzi meranými premennými a pravdepodobnosťou výskytu chýbajúcich hodnôt). Konkrétne v práci predstavím situácie, keď hodnoty chýbajú úplne náhodne (MCAR), dáta chýbajú náhodne (MAR) a dáta nechýbajú náhodne (MNAR – missing not at random). Tieto mechanizmy do značnej miery predurčujú vhodné postupy pre riešenie problému chýbajúcich hodnôt. Ďalej predstavím niektoré klasické metódy pre zachádzanie s chýbajúcimi hodnotami a zhodnotím ich pozitívne a negatívne vlastnosti. Bude sa jednať o metódy vynechávania prípadov s chýbajúcimi hodnotami z analýzy (pairwise deletion a listwise deletion), ktoré sú v praxi veľmi často využívané. Tiež zhodnotím metódy nahrádzania chýbajúcich hodnôt za aritmetický priemer (vypočítaný z platných hodnôt danej premennej) alebo nahrádzania chýbajúcich hodnôt pomocou viacnásobnej regresie. Okrem klasických metód štatistici vyvinuli dva nové prístupy, ktoré v porovnaní s predošlými metódami vykazujú lepšie odhady skúmaných parametrov. Prvý prístup je založený na metóde maximálnej vierohodnosti (maximum likelihood). Druhý prístup vychádza z procesu mnohonásobnej imputácie (multiple imputation), keď je každá chýbajúca hodnota v dátach nahradená niekoľkými simulovanými hodnotami, na ktorých sa vypočíta niekoľko paralelných modelov. Výsledný model a hodnoty jeho parametrov sú potom vypočítané z paralelných modelov. V diplomovej práci bude týmto novým prístupom patriť významné miesto. Jedným z cieľov práce bude konkrétne „teoretické“ postupy vyskúšať na simulovaných dátach v prostredí SPSS. Na základe vlastných výpočtov tak posúdim vhodnosť predstavených postupov v rôznych situáciách (v závislosti na mechanizme chýbajúcich hodnôt a uskutočňovanej analýze). Tiež sa pokúsim zhodnotiť, aké možnosti pre analýzu chýbajúcich hodnôt poskytuje prídavný modul SPSS s názvom Missing Values. |