Předmět seznámí studenty s lineární regresní analýzou s důrazem na aplikaci v R softwaru. Předmět je určen studentům společenských věd, což se odráží v jeho zaměření na konceptuální pochopení lineární regrese a praktické aplikace v sociálních vědách. Předmět obsahuje pouze malé množství matematiky, ale pro zájemce odkazujeme i na literaturu s odbornějším/matematickým zpracováním probíraných témat. Po absolvování předmětu by studenti měli mít dobré koncepční porozumění lineární regresi a různorodým účelům, pro které je používána (popis, inference od vzorku k populaci, kauzální inference, predikce), měli by ovládat běžnou terminologii, rozumět předpokladům spojeným s regresním modelováním, být schopni je ověřit a adekvátně reagovat v případě nesplnění předpokladů. Především by však měli být schopni činit dobře podložená rozhodnutí při provádění vlastní regresní analýzy a měli by být schopni správně prezentovat a interpretovat výsledky své analýzy.
K úspěšnému absolvování tohoto předmětu jsou studenti povinni udělat následující:
A) Vybrat datový soubor uvedený v projektu TidyTuesday (libovolný rok).
B) Formulovat výzkumný problém související s daty. Tento výzkumný problém může být buď prediktivní, nebo inferenční povahy (např. Můžeme predikovat popularitu písně na Spotify na základě jejích charakteristik? Závisí rozdíl ve mzdách mužů a žen v USA na podílu žen v oboru? Jsou dražší videohry hodnoceny lépe?).
Následně analyzujte data pomocí lineárního regresního modelu a napište zprávu o svých zjištěních. Tato zpráva by měla obsahovat jasnou definici vašich výzkumných problémů, popis vašich dat (včetně popisné statistiky), popis vašeho regresního modelu (případně jak tabulek, tak grafů), diagnostiku vašeho regresního modelu a celkový závěr. Data můžete transformovat a filtrovat podle potřeby, ale jasně popsat všechny datové transformace.
Připravte si dva dokumenty k odevzdání: (1) skript, který musí být plně funkční: musí běžet bez chyb od začátku (včetně stahování dat z webu TidyTuesday), dokončit bez potřeby vnějších zásahů a vytvořit všechny analytické výstupy (modely, grafy) použité pro zadání, (2) závěrečnou zprávu (např. Word nebo Pdf) jak je popsáno výše.
Poslední úprava: Poncarová Petra, Mgr. (21.05.2023)
The course will introduce students to linear regression analysis with emphasis on application in the R software. The course is designed for social science students, which is reflected in its focus on a conceptual understanding of linear regression and practical applications in the social sciences. The course contains only a small amount of mathematics, but for those interested we refer also to literature with more technical/mathematical treatment of the topics covered. After completing the course, students should have a good conceptual understanding of linear regression and the diverse purposes for which it is used (description, sample-to-population inference, causal inference, prediction), should command common terminology, understand assumptions associated with regression modeling, be able to verify them and respond adequately in the event of a failure to meet the assumptions. Above all, though, they should be able to make well-argued decisions when conducting their own regression analysis, and they should be able to present and interpret the results of their analysis correctly.
Poslední úprava: Poncarová Petra, Mgr. (21.05.2023)
Harrell, F. (2001). Regression Modeling Strategies: With Applications to Linear Models, Logistic Regression, and Survival Analysis. Springer-Verlag. https://doi.org/10.1007/978-1-4757-3462-1
Sekundární literatura
Cole, S. R., Platt, R. W., Schisterman, E. F., Chu, H., Westreich, D., Richardson, D., & Poole, C. (2010). Illustrating bias due to conditioning on a collider. International Journal of Epidemiology, 39(2), 417–420. https://doi.org/10.1093/ije/dyp334
Cook, R. D. (1977). Detection of Influential Observation in Linear Regression. Technometrics, 19(1), 15–18. https://doi.org/10.2307/1268249
Fox, J. (2015). Applied Regression Analysis and Generalized Linear Models (Third edition). SAGE Publications, Inc.
Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistical tests, P values, confidence intervals, and power: A guide to misinterpretations. European Journal of Epidemiology, 31(4), 337–350. https://doi.org/10.1007/s10654-016-0149-3
King, G., & Roberts, M. E. (2015). How Robust Standard Errors Expose Methodological Problems They Do Not Fix, and What to Do About It. Political Analysis, 23(2), 159–179.
Shmueli, G. (2010). To Explain or To Predict? (SSRN Scholarly Paper ID 1351252). Social Science Research Network. https://doi.org/10.2139/ssrn.1351252
Poslední úprava: Poncarová Petra, Mgr. (18.05.2023)