The course aims to introduce students into a selection of frequently-used advanced techniques of statistical data
analysis. The course is a sequel to Statistics in biology and design of ecological experiments (MB120P163), which
is a prerequisite to this course. In justified cases (e.g. similar course in data analysis accomplished), the teachers
will allow enlisting into the course without achieving the prerequisite. The course shall consist of three two-day
teaching blocks of combined talks and practicals – 1) non-normally distributed response variables – generalised
linear models (GLM); 2) hiearchical experimental designs – mixed-effect models (LME, GLMM) and nested
ANOVAs; 3) models with spatially, temporally or phylogenetically correlated responses – generalised least
squares (GLS, PGLS).
Last update: Štefánek Michal, Mgr. (29.06.2019)
Předmět si klade za cíl seznámit s studenty a naučit je prakticky používat výběr nejčastější pokročilých technik
statistické analysy dat. Předmět je koncipován jako pokračování předmětu Biostatistika a plánování pokusů
(MB120P163), která je prerekvisitou. V odůvodněných případech (např. absolvování analogické přednášky) budou
vyučující ochotni povolit zápis i bez prerekvisity. Předmět bude organisován ve třech dvoudenních blocích
přednášek a cvičení – 1) nenormálně rozdělené závislé proměnné – zobecněné lineární modely (GLM); 2)
hierarchické designy - modely se smíšenými efekty (LME, GLMM) a hierarchické ANOVy (split-plot, nested
ANOVA); 3) modely pracující s časovou, prostorovou či fylogenetickou korelací pozorování závislé proměnné –
metoda zobecněných nejmenších čtverců (GLS, PGLS).
Last update: Janovský Zdeněk, RNDr., Ph.D. (19.12.2020)
Literature -
Recommended literature: Crawley, M. J. (2007) The R book. John Wiley & Sons Ltd., Chichester, UK. Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Springer Verlag, New York, USA. Fitting Linear Mixed-Effects Models Using lme4 - https://cran.r-project.org/web/packages/lme4/vignettes/lmer.pdf Pinheiro, J. C. & Bates, D. M. (2000) Mixed-Effects Models in S and S-PLUS. Springer-Verlag, New York, NY, USA. Zuur, A., Ieno, E.N., Walker, N., Saveliev, A.A., Smith, G.M. (2009): Mixed Effects Models and Extensions in Ecology with R. Springer-Verlag, New York, NY, USA. Zuur, A., Ieno, E.N., Smith, G.M. (2007) Analysing Ecological Data. Springer-Verlag, New York, NY, USA. Swenson, N. (2014) Functional and phylogenetic ecology in R. Springer Publishing, New York. Paradis, E. (2012) Analysis of phylogenetics and evolution with R. Springer Publishing, New York.
Last update: Janovský Zdeněk, RNDr., Ph.D. (25.10.2019)
Doporučená literatura: Crawley, M. J. (2007) The R book. John Wiley & Sons Ltd., Chichester, UK. Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Springer Verlag, New York, USA. Fitting Linear Mixed-Effects Models Using lme4 - https://cran.r-project.org/web/packages/lme4/vignettes/lmer.pdf Pinheiro, J. C. & Bates, D. M. (2000) Mixed-Effects Models in S and S-PLUS. Springer-Verlag, New York, NY, USA. Zuur, A., Ieno, E.N., Walker, N., Saveliev, A.A., Smith, G.M. (2009): Mixed Effects Models and Extensions in Ecology with R. Springer-Verlag, New York, NY, USA. Zuur, A., Ieno, E.N., Smith, G.M. (2007) Analysing Ecological Data. Springer-Verlag, New York, NY, USA. Swenson, N. (2014) Functional and phylogenetic ecology in R. Springer Publishing, New York. Paradis, E. (2012) Analysis of phylogenetics and evolution with R. Springer Publishing, New York.
Last update: Janovský Zdeněk, RNDr., Ph.D. (25.10.2019)
Requirements to the exam -
The exam will be awarded on the basis of successful elaboration of three classified home assignments (one after each block of lecture) consisting of analyzing together 6 data sets using taught statistical techniques.The condition for obtaining the exam is to obtain at least 60% points from the home assignments.
Last update: Janovský Zdeněk, RNDr., Ph.D. (25.10.2019)
Zkouška bude udílena na základě úspěšného vypracování tří klasifikovaných domácích úkolů (vždy po každém bloku přednášky) spočívajících v analyse dohromady 6 datových souborů pomocí vyučovaných statistických technik. Podmínkou pro získání zkoušky je získání alespoň 60 % bodů z domácích úkolů.
Last update: Janovský Zdeněk, RNDr., Ph.D. (25.10.2019)
Syllabus -
Schedule of the individual two-day blocks:
Block 1 - Generalized Linear Models (GLM) and introduction to hierarchical designs
Day 1 - morning Theory (cca 2 h) - Introduction to GLM, concept of deviance, link functions, etc., introduction to logistic regression Exercise (approx. 1 h) - logistic regression, its assumptions, interpretation, construction of confidence intervals of the logistic curve
Day 1 - afternoon Theory (approx. 1 h) - GLM with binomial and Poisson distribution, treatment of overdispersion Exercises (approx. 3 h) - practical analyses using poisson and binomial GLM, interpretation of diagnostic graphs, detection and treatment of overdispersion
Day 2 - morning Theory (approx. 1 h) - GLM with gamma distribution, other than canonical link-functions Exercise (approx. 2 h) - practical exercises on GLM from the whole spectrum of variants discussed so far
Day 2 - afternoon Theory (approx. 1 h) - Hierarchical data designs and hierarchical ANOVA (split-plot, hierarchical ANOVA s.s.) Exercises (approx. 1.5 h) - Identification of individual layers of hierarchical designs, practical implementation of hierarchical ANOVs, auxiliary linear models for verification of assumptions Theory (approx. 1.5 h) - Revision of the concept of random effect factors and introduction to linear models with mixed effects
1st classified homework: analysis of two data sets focused on GLM usage
Block 2 - Mixed Effect Models - Linear (LME) and Generalized Linear (GLMM)
Day 1 - morning Theory (approx. 1 h) - LME - continuation, interpretation of LME, introduction to LME testing Exercise (approx. 2 h) - LME with one random effect, introduction to testing of fixed effect factors, interpretation of LME results
Day 1 - afternoon Theory (approx. 1 h) - LME - continuation, differences between random effect and mixed effect factor, testing of random effect factors in LME Exercise (approx. 3 hours) - LME with multiple factors with random and mixed effects
Day 2 - morning Theory (approx. 1 h) - construction of confidence intervals in LME - model profiling and other CI construction methods, expression of the amount of explained variability within LME (pseudo-R2) Exercise (approx. 2 h) - construction of confidence intervals for LME, calculation of psuedo-R2
Day 2 - afternoon Theory (approx. 1 h) - transition from LME to GLMM, common problems when working with mixed effect models and how to deal with them Exercises (approx. 3 hours) - GLMM exercises and revision excersises for mixed effect models
2nd classified homework: analysis of two data sets with hierarchical design
Block 3 - Data with temporal, spatial or phylogenetic correlation between observations - Generalized Least Squares (GLS)
Day 1 - morning Theory (approx. 1 h) - Introduction to GLS, possibility to use for heteroscedastic data, introduction to temporal and spatial autocorrelation of data, time series analyses, detection of spatial autocorrelation of data (semivariograms), functions useful for approximation of semivariogram Exercise (approx. 2 h) - GLS with weights (heteroskedasticity), 1st-order autoregressive models, ARIMA models, spatial data autocorrelation
Day 1 - afternoon Theory (approx. 1 h) - Introduction to work with phylogenetic data, models of character evolution, phylogenetically independent constants (PIC) Exercise (approx. 3 hours) - recording and editing of phylogenesis data, mapping of characters to phylogenetic trees, analysis of data using PIC
Day 2 - morning Theory (approx. 1 h) - Phylogenetic GLS (pGLS) and transformation of phylogenetic tree into a variance-covariance matrix, phylogenetic RMA (reduced major axis regression) Exercise (approx. 2 h) - analysis of data sets with available data on phylogeny
Day 2 - afternoon Theory (approx. 0.5 h) - Phylogenetic analysis of major components (phylPCA) Exercise (approx. 1.5 h) - continuation of tasks from morning + phylPCA
Seminars (approx. 2 hours) - discussion of model tasks, focusing on the identification of the nature of data and selection of appropriate analytical techniques
3rd classified homework: analysis of two data sets with spatial, temporal or phylogenetic correlation of response variable
Last update: Janovský Zdeněk, RNDr., Ph.D. (19.12.2020)
V akad. roce 2021/22 bude kurs vyučován v následujících datech: I. blok (GLM; 31.1. B14, 1.2. B11), III. blok (GLS; 7.-8.2. Seminarium kat. botaniky, BB), II. blok (LMM, GLMM; 16.-17.5. Seminarium kat. botaniky, BB)
Rozvržení jednotlivých dvoudenních bloků:
* 1. blok - Zobecněné lineární modely (GLM) a úvod do hierarchických designů 1. den dopoledne Teorie (cca 2 h) - Úvod do GLM, pojmy deviance, spojovací funkce atd., úvod do logistické regrese Cvičení (cca 1 h) - logistická regrese, její předpoklady, interpretace, konstrukce konfidečních intervalů logistické křivky
1. den odpoledne Teorie (cca 1 h) - GLM s binomickým a Poissonovým rozdělením, overdisperse Cvičení (cca 3 h) - praktické úlohy na poissonovské a binomické GLM, interpretace diagnostických grafů, detekce overdisperse a její vyřešení
2. den dopoledne Teorie (cca 1 h) - GLM s gama rozdělením, jiné než kanonické spojovací funkce Cvičení (cca 2 h) - praktické úlohy na GLM z celého spektra doposud probíraných variant
2. den odpoledne Teorie (cca 1 h) - Hierarchické designy dat a hierarchická ANOVA (split-plot, hierarchická ANOVA s.s.) Cvičení (cca 1,5 h) - Identifikace jednotlivých hladin hierarchických designů, praktické provedení hierarchických ANOV, pomocné lineární modely pro ověření předpokladů Teorie (cca 1,5 h) - Opakování konceptu faktorů s náhodným efektem a úvod do lineárních modelů se smíšenými efekty
Domácí úloha: analysa dvou datových souborů zaměřených na použití GLM
* 2. blok - Modely se smíšenými efekty - lineární (LME) i zobecněné lineární (GLMM) 1. den dopoledne Teorie (cca 1 h) - LME - pokračování, interpretace LME, úvod do testování LME Cvičení (cca 2 h) - LME s jedním náhodným efektem, úvod do testování faktorů s pevnými efekty, interpretace výsledků LME
1. den odpoledne Teorie (cca 1 h) - LME - pokračování, rozdíly mezi faktorem s náhodným efektem a faktorem se smíšeným efektem, testování faktorů s náhodným efektem v LME Cvičení (cca 3 h) - LME s více faktory s náhodnými a smíšenými efekty
2. den dopoledne Teorie (cca 1 h) - konstrukce konfidenčních intervalů v LME - profilování modelu a jiné metody konstrukce, vyjádření množství vysvětlené variability v rámci LME (pseudo-R2) Cvičení (cca 2 h) - konstrukce konfidenčních intervalů pro LME, výpočet psuedo-R2
2. den odpoledne Teorie (cca 1 h) - přechod od LME ke GLMM, obvyklé problémy při práci s modely se smíšenými efekty a jak se s nimi vyrovnat Cvičení (cca 3 h) - úlohy na GLMM a opakovací úlohy k modelům se smíšenými efekty
Domácí úloha: analysa dvou datových souborů s hierarchickým designem
* 3. blok - Data s časovou, prostorovou či fylogenetickou korelací mezi pozorováními - metoda Generalised Least Squares (GLS) 1. den dopoledne Teorie (cca 1 h) - Úvod do GLS, možnost využití pro heteroskedastická data, úvod do časové a prostorové autokorelace dat, analysy časových řad, detekce prostorové autokorelace dat (semivariogramy), funkce použitelné k aproximaci semivariogramu Cvičení (cca 2 h) - GLS s váhami (heteroskedasticita), autoregresivní modely 1. řádu, ARIMA modely, datové soubory s prostorovou autokorelací dat
1. den odpoledne Teorie (cca 1 h) - Úvod do práce s fylogenetickými daty, modely evoluce znaků, fylogeneticky nezávislé konstrasty (PIC) Cvičení (cca 3 h) - nahrávání a úpravy dat o fylogenesi, mapování znaků na fylogenetické stromy, analysy datových souborů pomocí PIC
2. den dopoledne Teorie (cca 1 h) - Fylogenetické GLS (pGLS) a převedení fylogenetického stromu do struktury varianční-kovarianční matice, fylogenetická RMA (reduced major axis regression) Cvičení (cca 2 h) - analysy datových souborů s dostupnými daty o fylogenesi
2. den odpoledne Teorie (cca 0,5 h) - Fylogenetická analysa hlavních komponent (phylPCA) Cvičení (cca 1,5 h) - pokračování úloh z dopoledne + phylPCA Cvičení (cca 2 h) - diskuse zadání modelových úloh se zaměřením na identifikaci povahy dat a výběr vhodné analytické techniky
Domácí úloha: analysa dvou datových souborů sčasově, prosotorově, nebo fylogeneticky kroelovanými závislými proměnnými
Last update: Janovský Zdeněk, RNDr., Ph.D. (17.01.2022)