Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Analýza chýbajúcich hodnot: porovnávanie vhodnosti tradičných metód naprieč mechanizmami
Thesis title in thesis language (Slovak): Analýza chýbajúcich hodnot: porovnávanie vhodnosti tradičných metód naprieč mechanizmami
Thesis title in Czech: Analýza chybějících hodnot: porovnání vhodnosti tradičních metod napříč mechanismy
Thesis title in English: Analysis of Missing Data: Comparing Performance of Traditional Methods across Mechanisms
Key words: chýbajúce hodnoty, mechanizmy chýbajúcich hodnôt, metódy založené na vynechávaní prípadov, metódy nahrádzania,simulácie,vychýlenie, štatistické usudzovanie
English key words: missing data, missing data mechanisms, deletion methods, imputation methods,simulations, bias, statistical inference
Academic year of topic announcement: 2010/2011
Thesis type: diploma thesis
Thesis language: slovenština
Department: Department of Sociology (23-KS)
Supervisor: PhDr. Ing. Petr Soukup, Ph.D.
Author: hidden - assigned by the advisor
Date of registration: 07.06.2011
Date of assignment: 07.06.2011
Date and time of defence: 17.09.2014 00:00
Venue of defence: Jinonice, U Kříže 8, Praha 5
Date of electronic submission:06.08.2014
Date of proceeded defence: 17.09.2014
Opponents: prof. RNDr. Jan Hendl, CSc.
 
 
 
URKUND check:
References
Allison, P. D. 2001. Missing data. Thousand Oaks: Sage.
Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37.
Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press.
Graham, J. W.; Taylor, B. J.; Olchowski, A. E.; Cumsille, P. E. 2006. „Planned missing data designs in psychological research“. Psychological Methods 11(4): 323-343.
Little, R. J. A. 1992. „Regression with Missing X´s: A Review“. Journal of the American Statistical Association 87: 1227-1237.
Little, R. J. A.; Rubin, D. B. 2002. Statistical Analysis with Missing Data. Hoboken: Wiley.
Longford, N. T. 2005. Missing Data and Small-Area Estimation. New York: Springer.
McKnight, P. E.; McKnight, K. M.; Sidani, S.; Figueredo, A. J. 2007. Missing Data: A Gentle Introduction. New York: The Guilford Press.
Rubin, D. B. 1976. „Inference and Missing Data“. Biometrika 63 (3): 581-592.
Rubin, D. B. 1987. Multiple Imputation for Nonresponse in Surveys. Hoboken: Wiley.
Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177.

Preliminary scope of work
Chýbajúce hodnoty sú takmer všadeprítomným javom kvantitatívnych spoločenskovedných výskumov. Situácie, keď respondenti odmietnu odpovedať alebo nevedia odpovedať na otázku sú viac ako bežné. Absencia platných hodnôt premenných môže byť spôsobená aj realizátormi výskumu (napr. vynechanie otázky tázateľom, chyba pri prepise dát atď.). Chýbajúce hodnoty v dátach môžu pri niektorých analýzach drasticky zredukovať počet prípadov na ktorých sa daná analýza spočíta. To môže viesť ku skresleným výsledkom alebo nesprávnym záverom, a zároveň odkazuje na nie úplne efektívne využívanie finančných zdrojov určených na výskum. Metodologická literatúra v anglickom jazyku sa problému chýbajúcich hodnôt venuje už niekoľko desaťročí. V bývalom Československu sa tomuto problému v literatúre doteraz nepripisovala takmer žiadna pozornosť. Vo svojej diplomovej práci by som preto chcel prispieť k predstaveniu problematiky analýzy chýbajúcich hodnôt českým a slovenským čitateľom.
V diplomovej práci budem vychádzať z prác štatistikov Rubina a Littla, ktorí definovali tri takzvané mechanizmy chýbajúcich hodnôt (t.j. možné vzťahy medzi meranými premennými a pravdepodobnosťou výskytu chýbajúcich hodnôt). Konkrétne v práci predstavím situácie, keď hodnoty chýbajú úplne náhodne (MCAR), dáta chýbajú náhodne (MAR) a dáta nechýbajú náhodne (MNAR – missing not at random). Tieto mechanizmy do značnej miery predurčujú vhodné postupy pre riešenie problému chýbajúcich hodnôt.
Ďalej predstavím niektoré klasické metódy pre zachádzanie s chýbajúcimi hodnotami a zhodnotím ich pozitívne a negatívne vlastnosti. Bude sa jednať o metódy vynechávania prípadov s chýbajúcimi hodnotami z analýzy (pairwise deletion a listwise deletion), ktoré sú v praxi veľmi často využívané. Tiež zhodnotím metódy nahrádzania chýbajúcich hodnôt za aritmetický priemer (vypočítaný z platných hodnôt danej premennej) alebo nahrádzania chýbajúcich hodnôt pomocou viacnásobnej regresie.
Okrem klasických metód štatistici vyvinuli dva nové prístupy, ktoré v porovnaní s predošlými metódami vykazujú lepšie odhady skúmaných parametrov. Prvý prístup je založený na metóde maximálnej vierohodnosti (maximum likelihood). Druhý prístup vychádza z procesu mnohonásobnej imputácie (multiple imputation), keď je každá chýbajúca hodnota v dátach nahradená niekoľkými simulovanými hodnotami, na ktorých sa vypočíta niekoľko paralelných modelov. Výsledný model a hodnoty jeho parametrov sú potom vypočítané z paralelných modelov. V diplomovej práci bude týmto novým prístupom patriť významné miesto.
Jedným z cieľov práce bude konkrétne „teoretické“ postupy vyskúšať na simulovaných dátach v prostredí SPSS. Na základe vlastných výpočtov tak posúdim vhodnosť predstavených postupov v rôznych situáciách (v závislosti na mechanizme chýbajúcich hodnôt a uskutočňovanej analýze). Tiež sa pokúsim zhodnotiť, aké možnosti pre analýzu chýbajúcich hodnôt poskytuje prídavný modul SPSS s názvom Missing Values.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html