SubjectsSubjects(version: 861)
Course, academic year 2019/2020
  
Biostatistics II - MB120P102
Title: Biostatistika II
Czech title: Biostatistika II
Guaranteed by: Department of Botany (31-120)
Faculty: Faculty of Science
Actual: from 2019
Semester: winter
E-Credits: 2
Examination process: winter s.:
Hours per week, examination: winter s.:1/1 Ex [hours/week]
Capacity: unlimited
Min. number of students: unlimited
State of the course: taught
Language: Czech
Guarantor: prof. RNDr. Tomáš Herben, CSc.
Teacher(s): prof. RNDr. Tomáš Herben, CSc.
doc. RNDr. Zuzana Münzbergová, Ph.D.
Files Comments Added by
download Biostat2-rozpis19.xls Rozpis přednášek a cvičení kurzu prof. RNDr. Tomáš Herben, CSc.
download bistorta.zip Data o změnách druhového složení luční vegetace v závislosti na managementu (sekání a hnojení): data Sylvie Pecháčkové doc. RNDr. Zuzana Münzbergová, Ph.D.
download Cerinka.xls Data o sukcesi vegetace ve vápencovém lomu. doc. RNDr. Zuzana Münzbergová, Ph.D.
download Cotopaxi.zip Data Zdeňka Soldána z lávových proudů Cotopaxi. doc. RNDr. Zuzana Münzbergová, Ph.D.
download dalsineprime_PetrPetrik.zip Další techniky nepřímé ordinace a klasifikace dat o druhovém složení: vegetace pasek Petra Petříka doc. RNDr. Zuzana Münzbergová, Ph.D.
download houby.zip Data Evy Požárové o mykofloristickém složení odkališť. doc. RNDr. Zuzana Münzbergová, Ph.D.
download magda.R Jednoducha PCA pro soubor Magda. Skript na analýzu pro kontrolu (nestahujte dřív, než budete mít vlastní skript hotov!) prof. RNDr. Tomáš Herben, CSc.
download magda1.zip Data o chemickém složení půdy na loukách: zkoumání vlivu mravenců na půdu (data Magdy Březnové) prof. RNDr. Tomáš Herben, CSc.
download mravenci.zip Data Pavla Kováře z geobotanické exkurse o vegetaci mravenišť a okolní louky na třech transektech. prof. RNDr. Tomáš Herben, CSc.
download neprime_analyzy_PetrPetrik.zip Nepřímé ordinace dat o druhovém složení: vegetace pasek Petra Petříka prof. RNDr. Tomáš Herben, CSc.
download pastvaHM-reseni.ZIP exportovane soubory a skript na analýzu pro kontrolu (nestahujte nic z toho dřív, než budete mít vlastní skripty a exporty hotovy!) prof. RNDr. Tomáš Herben, CSc.
download PastvaHM.zip Data o vlivu pastvy na vegetaci skalní stepi v průběhu 10 let doc. RNDr. Zuzana Münzbergová, Ph.D.
download PCA-Spergula.zip Úvod do mnohorozměrných analýz na příkladu PCA: data o Spergula morisonii prof. RNDr. Tomáš Herben, CSc.
download prime_analyzy_kovariaty_PetrPetrik.zip Přímé ordinace dat o druhovém složení: analýza s kovariátami (vegetace pasek Petra Petříka) prof. RNDr. Tomáš Herben, CSc.
download prime_analyzy_PetrPetrik.zip Přímé ordinace dat o druhovém složení: vegetace pasek Petra Petříka prof. RNDr. Tomáš Herben, CSc.
download prime_analyzy_slozitejsi designy.zip Složitější designy pro statistické testy: data Magdy Březnové o mraveništích prof. RNDr. Tomáš Herben, CSc.
download rhedl.zip Data R. Hédla o změnách vegetace bučin doc. RNDr. Zuzana Münzbergová, Ph.D.
download rokle.zip Data o druhovém složení v pískovcových roklích ve vztahu k hloubce pískového náplavu doc. RNDr. Zuzana Münzbergová, Ph.D.
download semvegZM.zip Data o složení vegetace a semenné banky suchých trávníků doc. RNDr. Zuzana Münzbergová, Ph.D.
download skopky.R skopky - skript na analýzu pro kontrolu (nestahujte dřív, než budete mít vlastní skript hotov!) prof. RNDr. Tomáš Herben, CSc.
download skopky.zip Data o druhovém složení experimentálních společenstev suchých trávníků prof. RNDr. Tomáš Herben, CSc.
download uvod_R+vegan.zip Úvod do zacházení s balíčkem vegan prof. RNDr. Tomáš Herben, CSc.
download vypalZM.zip Data o vlivu vypalování a seče na stepní vegetaci. doc. RNDr. Zuzana Münzbergová, Ph.D.
download ziviny.zip Data o vlivu různých typů hnojení na vegetaci horské louky doc. RNDr. Zuzana Münzbergová, Ph.D.
Annotation -
Last update: prof. RNDr. Tomáš Herben, CSc. (22.06.2015)
Please note that the course is taught in the Czech language only.

Introduction to multivariate techniques in ecology, namely using the CANOCO package. Principles of multivariate techniques, linear and unimodal techniques. Indirect ordination and canonical (direct) techniques. Testing of relationships by randomisation techniques. Uses of multivariate techniques in lieu of univariate techniques: types of problems.
Requirements to the exam - Czech
Last update: prof. RNDr. Tomáš Herben, CSc. (02.12.2015)

Analýza dat z vlastní práce a její prezentace. (V případě potřeby dodáme vhodná data pro analýzu.)

Doplňovací test.

Syllabus - Czech
Last update: prof. RNDr. Tomáš Herben, CSc. (28.01.2020)

Toto je aktuální sylabus kurzu.

 

Rozpis jednotlivých přednášek je v Excelovém souboru Biostat2-rozpis.xls.

 

 

 

Zásady

  • Úvod: typy problémů, typická datová struktura.
  • Jednorozměrné analýzy: závislá proměnná, nezávislé proměnné, regrese, regresní koeficienty, R2, statistický test, např. analýzou variance, signifikance
  • Vícerozměrné analýzy: závislá proměnná není jedna, ale víc. Nelze činit paralelní jednorozměrné analýzy: (i) šlo by o mnohonásobné testy na týchž datech, a (ii) neinformují nás o vztazích mezi závislými proměnnými
  • První otázka: jaké jsou vztahy mezi závislými proměnnými: korelační matice
  • Srovnání analýzy jednorozměrných a mnohorozměrných dat. Podobnosti a rozdíly.
  • Dva základní typy mnohorozměrných dat v ekologii:
  • (1) Data o jedincích (druzích, chemický vzorcích atd.), "biometrická data". Objekty jsou jedinci (nebo druhy), na nichž je měřeno více parametrů. Typická struktura: znaky x taxony/individua. Tabulka je plná, ale každá proměnná (v obecném případě) je vyjádřena ve vlastních jednotkách.
  • (2) Data o složení společenstev. Objekty jsou zkusné plochy (nebo něco podobného) na nichž jsou zaznamenávány výskyty druhů. Základní struktura je tabulka druhy x stanoviště (jiná). Tabulka obsahuje mnoho nul (většina druhů na většině stanovišť schází), ale všechny proměnné jsou typicky vyjádřeny ve stejných jednotkách počty jedinců, biomasy, pokryvnosti atd.).
  • Representace stanovišť jako bodů v prostoru vymezeném druhy jako osami.
  • Jak v této tabulce najít strukturu (co to je struktura: například korelace mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty různých druhů) nějaké vztahy (korelace, ale ne nutně lineární). Mnohorozměrné techniky selhávají, pokud mezi proměnnými korelace nejsou.
  • Nezávislé proměnné: tabulka hodnot nezávislých proměnných
  • Dvojí použití: Vytváření hypotéz (jen závislé proměnné), testování hypotéz (Monte Carlo testy, kovariáty).
  • Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného objektu na plátno lze učinit mnoha ekvivalentními způsoby.
  • Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi proměnnými a objekty různým způsobem

Analýza hlavních komponent jako příklad mnohorozměrné techniky

  • Problém: regrese/korelace mezi interkorelovanými proměnnými: hledat strukturu v korelacích
  • Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit přímku. Použití této přímky k transformaci soustavy souřadnic.
  • Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu případů). Důvody.
  • Nové osy.Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat na osy právě proto, že tyto jsou nekorelované).
  • Jaké jsou jednotky nově nalezených os, kde jsou nuly.
  • Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
  • Grafy, Biplot. Jak je číst, typy biplotů. Problém biplotů: jak vyjádřit skory proměnných a skóry objektů ve stejných jednotkách (jsou jiné povahy).
  • Jak vypadá PCA, když jsou korelace velké, když jsou korelace malé. I malý podíl vysvětlené variance může být informativní (je-li proměnných hodně). Srovnání vysvětlené variability s náhodným očekáváním.
  • Standardisace proměnných (korelace, kovariance): jsou-li každá v jiných jednotkách (nezbytnost). Jsou-li ve stejných jednotkách: chci-li dát váhu proměnné podle jejích průměrných hodnot.
  • Standardisace po stanovištích: jsou-li mezi stanovišti velké rozdíly v ceklkové hodnotě všech proměnných (příklad pokryvnost)
  • Transformace dat.
  • Interpretace os: je třeba na základě vnější informace (znalost ekologie druhů, znalost stanovišť). Pozor na argumentaci kruhem.
  • Korelace os s měřenými daty o prostředí.
  • Podmínky PCA: linearita závislosti!
  • Chybějící hodnoty v mnohorozměrné analýze. Obecně pracovat nelze, objekty (nebo proměnné) s chybějícími hodnotami je třeba vyloučit. Alternativa: imputace dat (např. průměry sloupců, ale lze i mnohem rafinovaněji).

Unimodální techniky

  • Předpoklad PCA: linearita.
  • Vztahy mezi druhy v přírodě typicky lineární nejsou. Jaké typické nelinearity je třeba ošetřit.
  • Ekologické gradienty: druhy mají svá maxima a jejich četnost klesá v obou směrech od maxima. Jak vypadá vztah mezi četnostmi druhů vzájemně. jak se mění s délkou gradientu a vzdáleností optim druhů od sebe.
  • Co dělá PCA v případě dlouhých gradientů (horseshoe effects, korelace nulami).
  • Korekce: předpoklad unimodálního modelu. Dva přístupy: (i) Gausovská ordinace, (ii) metody vážených průměrů (korespondenční analýza).
  • Jak se provádí CA. Je to stejná logika jako při výpočtu hodnot prostředí z pomocí Ellenbergových čísel.
  • Posice snímků na gradientu -> skóry druhů (regresní problém; součet součinů četností druhu a posice všech jeho výskytů) -> přepočtené posice snímků (kalibrační problém; součet součinů četností druhů ve snímku a jejich průměrné posice).
  • Co je výsledkem CA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. optima druhů na nových osách (m x m matice), 3. skóry stanovišť na nových osách- (n x m matice).
  • Interpretace os, charakteristická čísla (podíl vysvětlené variability).
  • Podmínky CA: rovnoměrná optima, rovnoměrné posice snímků, stejné tolerance, stejné maximální abundance.
  • Biplot/joint plot a jeho interpretace v lineární a unimodální situaci. Co znamenají posice druhů daleko od počátku.
  • Nedostatky CA: druhá osa je často nelineární funkcí osy první, komprese gradientu u krajů: korekce v detrended correspondence analysis (DCA). Velmi robustní technika.
  • Downweighting of rare species (obvykle je vhodné aktivovat)
  • Diagnostika vhodnosti modelu: jak se rozhodnout, který model je správný. Odhad délky gradientu. V jakých jednotkách se gradient měří. Dlouhé gradienty, krátké gradienty. Vynést četnost druhu proti posici stanoviště na gradientu.
  • Korelace os s měřenými daty o prostředí - lze exportovat a analyzovat v libovolném statistickém programu. Lineární vztah vnějších proměnných k osám, unimodální vztah druhů k osám (a tedy k hodnotám měřených proměnných).

Přímé techniky: použití informace o prostředí při konstrukci hlavních os

  • PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo unimodálního modelu) a jeho dodatečná korelace s parametry o objektech (pasivní projekce nezávislých proměnných do ordinačního grafu). Korelace s těmito parametry.
  • U těchto je interpretace os vždy trochu problém: nepřímá inference. Se zajímavými parametry obejktů mohou být korelovány vyšší osy než první nebo druhá a tak mi to unikne
  • Řešení: hledat vztah mezi závislými proměnnými a prediktory přímo
  • jednorozměrný případ (regrese, jednoduchá, mnohonásobná) - pro jednu závisle proměnnou a jeden nebo několik prediktorů. V jednorozměrném případě rozkládám variabilitu závislé proměnné na složku lineární kombinace prediktoru(ů) a zbytek (náhodnou variabilitu).
  • mnohorozměrný analog: více závislých proměnných. Musím celkovou variabilitu (tu kterou rozkládám na jednotlivé osy např. v PCA) rozložit na složku lineárně korelovanou s prediktory a zbytek
  • Kanonické techniky: Společnou variabilitu závislých proměnných (hlavní osy) rozdělit na složku lineárně korelovanou s prediktory a složku s prediktory nekorelovanou. Hlavní osy s dodatečnou podmínkou: ten směr největší variability souboru druhů, který je lineárně korelován s nezávislými proměnnými (prediktory). Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.
  • Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA (kanonická varianta CA). Kanonické (lineárně korelované s prediktory) a nekanonické osy.
  • Počet nezávislých proměnných a počet kanonických os. Rozklad celkové variability.
  • Rozdíl od dodatečné korelace s pasivními parametry prostředí: ve kterém okamžiku použiju nezávislou informaci obsaženou v prediktorech
  • Předpoklad použití: linearita závislosti mezi nezávislými proměnnými a hlavními osami. (V RDA jsou všechny vztahy lineární; jak je to v CCA)
  • Interkorelace mezi vysvětlujícími proměnnými: inflační faktor (problém mnohorozměrné regrese - jak vybrat vhodné proměnné) - viz víc dále
  • Nezávislé proměnné mohou být kategoriální nebo spojité.
  • Kódování nominálních proměnných: n-1 kódovacích proměnných.

Statistické testy v mnohorozměrných technikách: úvod

  • Proč mnohorozměrné testy: vyhnout se mnohonásobnému testování
  • Testy signifikance - testuji nenáhodnost uspořádání dat o druzích a dat o proměnných prostředí - tj. závislých a nezávislých proměnných (nulová H: všechna uspořádání mají stejnou šanci).
  • Co to je signifikance: šance toho, že dostanu svoje data jako výsledek náhody. Co znamená náhoda (absence závislosti - formulace nulové hypotézy). Konstrukce testového kritéria a rozdělení tohoto kritéria za předpokladu nulové hypotézy.
  • Permutační testy - numerická konstrukce rozdělení testového kritéria. Permutační testy jsou testy o vzájemném uspořádání dvou nebo více proměnných. Permutované datové soubory jsou všechny stejně pravděpodobné za platnosti H0.
  • Test první kanonické osy, testy všech os: rozdíly, vhodnost v různých situacích

Analýza s kovariátami (parciální analýza)

  • Jak odstranit vlivy prostředí, které nejsou předmětem studia (jejichž vliv je znám, nebo je nezajímavý a nebo může skrýt zajímavý vliv nějaké jiné veličiny).
  • v lineárním modelu s jednou závislou proměnnou: parciální regresní koeficienty.
  • Zobecnění pro mnohorozměrnou situaci: zavedení kovariát. Odlišení zajímavých nezavislých proměnných ("proměnných prostředí") a nezajímavých nezávislých proměnných (kovariát).
  • Rozklad vysvětlené variability jsou-li v modelu kovariáty.
  • Kovariáty v korelativních datech: problém interkorelace mezi kovariátami (=nezajímavými nezávislými proměnnými ) a proměnnými prostředí (=zajímavými nezávislými proměnnými)
  • Použití kovariát k separaci rozdílu mezi bloky, časy záznamu, plochami atd.: zejména při zpracování dat z pokusů.
  • Testy s kovariátami: oddělení efektu kovariát a proměnných prostředí.
  • Jsou-li kategoriální, je to jednoduché: Permutace v blocích (design-based permutation).
  • Jinak: permutace residuálů po odstranění efektu kovariát (model-based permutations).

Postupný výběr nezávislých proměnných

  • Problém regrese s mnoha proměnnými: jak mezi nimi vybrat, jsou-li korelované. Korelace znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici pozorování závislé veličiny).
  • Mnohonásobná lineární regrese: Koeficient determinace, regresní koeficienty závisí na všech ostatních proměnných v rovnici
  • Způsoby výběru nejlepších prediktorů. Postupný výběr nezávislých proměnných.
  • Nemusí nutně vést ke globálně nejlepšímu řešení. Každá do rovnice zahrnutá proměnná shrne i variabilitu, která v dvourozměrné analýze je připsatelná nějaké jiné (s ní korelované) proměnné.
  • Jak se provede technicky: jak poznat příspěvky jednotlivých proměnných: change in fit , test signifikance (model-based test).
  • Má kritérium být přísné nebo měkké: výhody a nevýhody.

Statistické testy v mnohorozměrných technikách: speciální případy

  • Princip permutací: je třeba zcela zachovat strukturu dat za předpokladu nulové hypotézy.Pokud nezachovám strukturu dat (tj. úplně randomisované v situaci, kdy být nemají): jsou příliš liberální, protože ruší víc závislostí než předpokládá nulová H.
  • Speciální případy v randomisačních testech.
  • I. Permutace v blocích. Design-based permutations.
  • II. Vztahy mezi plochami v prostoru - autokorelace. Jednotlivé plochy nejsou nezávislé v prostoru nebo v čase. V takovém případě může být korelace mezi proměnnými prostředí a druhovým složením dána pouze prostorovou závislostí v obou typech dat nezávisle. Na tuto závislost je třeba brát ohled v permutačních testech:  stejně jako při testech bloků nebo časových řad. žešení:
  • III. Hierarchická struktura dat: split-plot randomisace. Dvě nebo více úrovní variability: mezi subjekty a uvnitř subjektů. Jak se ošetří v randomisačním testu. Na jaké úrovni jsou zaznamenávány jaké proměnné prostředí. Počet stupňů volnosti/ nezávislých pozorování pro různé testy.
  • IV. Opakované záznamy v čase: analogie split-plot randomisace.

Použití kanonických mnohorozměrných technik pro vyhodnocení dat z manipulativních pokusů (analogie ANOVA)

  • Jaké typické mnohorozměrné situace: závislých proměnných je více, a jsou korelované (např. pokus testující vliv hnojení na floristické složení, ale i např. pokus testující vliv hnojení na kytky v květináči, zaznamenávám-li pro jednu kytku víc parametrů)
  • Problém: mnohonásobné testování.
  • Mnohorozměrná analogie jednocestné ANOVA: typicky pro kategoriální nezávislé (jak kódovat viz výše).
  • Jak technicky provést: jedna nezávislá proměnná (proměnná "prostředí") a Monte Carlo test.
  • Použití kovariát k odfiltrování rozdílů mezi bloky, časy záznamu, plochami atd.
  • Opakovaná měření (repeated measurements) téhož objektu: pozor! nejsou to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů ani počet stupňů volnosti pro stanovení vlivu ošetření.
  • Zajímá mě efekt ošetření a interakce ošetření * čas. "BACI" designs. Jakým způsobem randomisovat.
  • Dvoucestná ANOVA: při dvou nezávislých proměnných by Monte Carlo test dal jen celkový efekt obou. Přitom jsou zajímavé právě separované efekty.
  • Řešení: opět kovariáty: provést parciální Monte Carlo test. Typy randomisací.
  • Analogie analýzy kovariance.
  • 3 důležitá rozhodnutí při testování složitých dat z pokusů: (i) co bude testovaná proměnná prostředí, (ii) co budou kovariáty, (iii) jaký typ randomisace. (krom rozhodnutí uvedených níže!). Při zpracování dat z jednoho pokusu je často třeba provést víc testů (v principu každému členu v modelu ANOVA odpovídá samostatný test).

 

Další metody pro práci s mnohorozměrnými daty

 

  • Metody postavené na matici vzdáleností mezi objekty (Q-ordinace).
  • Matice vzdáleností: jak definovat vzdálenost (nepodobnost). Eukleidovská vzdálenost.
  • Požadavky na metriku: identita, symetrie, nonnegativita, trojúhelniková nerovnost. V ekologii se často pracuje s měrami, jež nesplňují tu poslední (= semimetriky). Ultrametrika.
  • Kvalitativní vs. kvantitativní data.
  • Běžné míry vzdálenosti: Eukleidovská, Chord distance (standardizovaná eukleidovská, geodetická vzdálenost, Bray-Curtis (abs(rozdílu hodnot)/suma hodnot; pro kvalitativní data 1-1/Sorensen), Manhattan, mnoho dalších....
  • Před aplikací míry vzdálenosti je možné provést různé typy standardizací
  • Nonmetric multidimesional scaling (NMDS): co nejlepší zachování vzdáleností mezi objekty v mnohorozměrném prostoru při projekci do dvourozměrného (resp. nízkorozměrného; počet dimensí je třeba stanovit předem).
  • Míra tohoto zachování: "stress". Stress diagram. Suma čtverců odchylek od závislosti (závislost je typicky nelineární, proto se používají často míry nelineárních korelací: polynomická, monotónní regrese)
  • Algoritmus začíná od náhodného uspořádání objektů, spočítá stress a pak metodou gradient descent hledá takové osy, při nichž je stres nejmenší. Několik alternativních výchozích konfigurací (stabilita řešení – lokální minima). Heuristické postupy pro hledání počáteční konfigurace (PCA, geografické vzdálenosti...). Postupné snižování dimensionality až na žádaný počet dimensí.
  • Ordinace objektů, nikoliv druhů: druhy je možné dopočítat dodatečně metodou vážených průměrů podobně jako v CA (nezobrazují se také proto šipkami, ale body)
  • Stejným způsobem je možné provést projekci proměnných prostředí.
  • Ve veganu je velmi "chytrá" funkce metaMDS.
  • Principal coordinate analysis (PCoA): řešení stejného problému, ale s předpokladem linearity vztahu mezi původními vzdálenostmi a vzdálenostmi v ordinačním prostoru (stres definován jako residální suma čtverců). Proto na rozdíl od NMDS lze pracovat s pojmem podílu vysvětlené variability (původní matice vzdáleností maticí vzdáleností v prostoru s redukovanou dimensionalitou).

 

 

Mnohorozměrné přístupy k práci s prostorovými a fylogenetickými daty

  • Společné vlastnosti prostorových a fylogenetických dat: lze je převést na matici vzdáleností
    • Eukleidovských (tentokrát ve skutečném fyzickém prostoru) pro prostorová data
    • fylogenetických pro fylogenetická data (vzdálenost po stromu přes nejbližšího společného předka – jednotky mohou být čas nebo nějaká divergence nějakých – nejčastěji molekulárních – vlastností)
  • S touto maticí lze pracovat pomocí nějakých Q-ordinací (NMDS, ale nejčastěji principal coordinate analysis)
  • výsledkem jsou pozice objektů na osách (prostorové nebo fylogenetické eigenvektory), které sumarizují (velkou) část variability v matici podobností.
  • Jaký počet vektorů použít
  • pro odstranění efektu fylogeneze nebo vzdálenosti ve fyzickém prostoru typicky vektory použiju jako kovariáty

 

Klasifikační techniky

 

  • Klasifikace: diskretizace ordinačního prostoru. Podle čeho rozhodovat. Kritéria pro klasifikaci.
  • Klasifikovat lze ( a může mít smysl) i v případě, že objekty netvoří jasně vymezené celky: klasifikace barevného spektra.
  • Algoritmy klasifikací: aglomerativní a divisivní, hierarchické a retikulátní.
  • Klasifikace vždycky vychází (opět) z matice měr podobností.
  • Příklady možných algoritmů aglomerativní klasifikace (často velký vliv na výsledek): single linkage, complete, UPGMA, WPGMA, centroid, Ward (minimalizace vnitroskupinové mnohorozměrné variance).
  • Optimalizace počtu klastrů.
  • Divisivní klasifikace jsou v obecnosti obtížně proveditelné pro velký počet možností - neřešitelné výpočetní potíže (počet možností roste exponenciálně s počtem objektů).
  • Relokační techniky s předem daným počtem objektů: K-means clustering
  • Heuristické techniky. TWINSPAN (two way indicator species analysis), vychází z ordinace stanovišť a druhů, tj. klasifikuje podle důležitých gradientů floristického složení. (blízký intuitivnímu přístupu).

 

 

 

Úvod do použití software na mnohorozměrné analýzy

  • Příprava dat pro analýzu, struktura
  • jak zacházet s programovým souborem vegan
  • jak zacházet s programovým souborem CANOCO

Důležitá rozhodnutí v mnohorozměrné analýze (týká se všech analýz, přímých i nepřímých)

 

Přímá či nepřímá technika (pouze mám-li k disposici data o prostředí)

Zajímá mě vztah celkové variability dat k proměnným prostředí, nebo mě zajímá ta specifická část variability, která se vztahuje k prostředí

Unimodální či lineární analýza (PCA+RDA vs. DCA+CCA)

Rozhoduju se na základě (i) délky gradientu spočtené v DCA, (ii) grafů XY plots v CanoDraw, (iii) úvahy o délce gradientu ze znalosti vegetace či typu pokusu/proměnné prostředí

Transformace dat

Rozhoduju se na základě rozložení hodnot druhů (chci, aby rozdíl hodnot 100 - 99 byl totéž jako 2-1 nebo ne?)

Standardisace dat přes proměnné/druhy (jen u lineárních technik)

Rozhoduju se na základě toho, zda chci, aby vzácné druhy přispívaly k osám stejně jako hojné nebo v poměru svých četností

Standardisace dat přes objekty/stanoviště (jen u lineárních technik)

Rozhoduju se na základě toho, zda chci, aby četnosti druhů byly hodnoceny v závislosti na tom, jaká je celková četnost všech druhů na stanovišti, nebo na všech stanovištích stejně

Poznámka. Ve skriptech Herben T. a Z. Münzbergová: Zpracování geobotanických dat v příkladech je k nalezení také "Určovací klíč k datovým strukturám", kde krom těchto rozhodnutí je podrobný popis toho, jaké techniky použít podle toho, jak jsou data/pokus strukturovány.

Literatura a odkazy

  • Jongman, R. H. G., C. J. F. ter Braak, and O. F. R. van Tongeren, editors. 1987. Data Analysis in Community and Landscape Ecology. Pudoc, Wageningen, The Netherlands.
  • ter Braak, C. J. F., and P. Šmilauer. 1998. CANOCO Reference Manual and User's Guide to Canoco for Windows: Software for Canonical Community Ordination (version 4). Microcomputer Power (Ithaca, NY USA) 352 pp.
  • McCune B., Grace J.B., and Urban, D.L. Analysis of Ecological Communities, MjM Software Design, 2002.
  • R.H. Okland 1990: Vegetation ecology: theory, methods and applications with reference to Fennoscandia. Sommerfeltia Supplement 1. 233 pp.
  • Jan Lepš, Petr Šmilauer. 2003. Multivariate Analysis of Ecological Data using CANOCO. Cambridge University Press.
  • Lepš J. a P. Šmilauer: Mnohorozměrná analýza ekologických dat
  • Herben T. a Z. Münzbergová: Zpracování geobotanických dat v příkladech

 

 

Odkazy

 

 

Zásady pro strukturování vlastních datových souborů

Vhodné jsou v zásadě jakékoliv soubory, které obsahují informaci o hodnotách nějakých proměnných (druzích, biometrických proměnných, chemických a fysikálních analýzách) na jednotlivých objektech (snímcích, vzorcích/odběrech, pastech, herbářových položkách). Je vhodné, máte-li k datům ještě dodatečné informace (odběrové časy, bloky, typy stanovišť, posice v prostoru, data o prostředí ap.).

Při přípravě dat dbejte podle možnosti těchto zásad:

  • Je vhodné, aby data byla ve formátu xls (jeden typ dat vždy na jednom listu nebo v samostatném souboru)
  • Každý objekt (snímek, vzorek/odběr, past, herbářová položka) nechť má svou vlastní řádku
  • Sloupce nechť popisují jednotlivé proměnné - jak vlastní zájmové (druhy), tak i dodatečné. Alternativně (fytocenologický způsob) mohou být sloupce objekty (snímky) a řádky proměnné (druhy).
  • Každý sloupec nechť má nahoře jednu řádku se jménem proměnné (druhu nebo dodatečné proměnné). Je lépe, pokud neobsahuje speciální znaky (%, $, @, -, (), mezeru, tečku atd.) ani znaky s diakritikou a jeho délka nesmí přesáhnout 8 písmen. Totéž platí pro jména objektů (pokud je chcete používat - lze je vynechat vůbec).
  • Dodatečné kategoriální vícestavové proměnné (např. blok, geologie) nechť jsou vhodným způsobem kódovány (proměnnou s n hladinami je třeba nahradit n-1 (nebo n) proměnnými o dvou hladinách. Každá z těchto proměnných nechť má svoje jméno (např. blok1, blok2..., nebo cedic, zula, vapenec)
  • Kódy druhů je výhodné manuálně upravit tak, aby měly jen osm znaků (např. "Agro ten", nebo "Agrotenu", samozřejmě bez těch uvozovek). To lze s výhodou udělat v EXCELU třeba takovouhle funkcí: je-li v políčku A2 rodové jméno a v políčku A3 druhové jméno, pak třeba =CONCATENATE(ZLEVA(A2,4);ZLEVA(A3,4)), nebo =CONCATENATE(ZLEVA(A2,4);" ";ZLEVA(A3,3)). Pokud ve vašem výchozím souboru máte rod i druh ve stejném políčku, je k jejich rozdělení do samostatných políček možné použít Excelovou funkci Data->"Text do sloupců" a pak aplikovat postup s funkcí CONCATENATE.
  • Mnohorozměrné techniky obecně neumí pracovat s chybějícími hodnotami. Všechna prázdná políčka se při exportu nahradí nulami. Je potřeba vědět, zda tohle je přijatelné (pokud skutečně prázdné políčko nulu znamená). V opačném případě je třeba (i) buď odstranit druhy nebo objekty, které mají prázdné hodnoty, (ii) do prázdných políček dosadit průměrné hodnoty dané proměnné (to je ale fušerský postup, který lze použít jen tehdy, je-li těch prázdných políček málo; je každopádně třeba velmi přemýšlet, průměry čeho tam má smysl dosadit).
  • Nevynechávejte řádky, k odlišení jednotlivých podskupin dat použijte kódovací proměnné
  • Je zbytečné data složitě formátovat (barvy, ohraničení, velikost buněk), při exportu se tato informace dá použít jen obtížně

 

 


 

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html