PředmětyPředměty(verze: 945)
Předmět, akademický rok 2016/2017
   Přihlásit přes CAS
Biostatistika II - MB120P102
Anglický název: Biostatistics II
Český název: Biostatistika II
Zajišťuje: Katedra botaniky (31-120)
Fakulta: Přírodovědecká fakulta
Platnost: od 2015 do 2018
Semestr: zimní
E-Kredity: 2
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:1/1, Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Poznámka: povolen pro zápis po webu
Garant: prof. RNDr. Tomáš Herben, CSc.
Vyučující: prof. RNDr. Tomáš Herben, CSc.
prof. RNDr. Zuzana Münzbergová, Ph.D.
Výsledky anket   Termíny zkoušek   Rozvrh   
Soubory Komentář Kdo přidal
stáhnout Biostat2-rozpis-prednasek.xls Rozpis jednotlivych prednasek a cviceni prof. RNDr. Tomáš Herben, CSc.
stáhnout bistorta.zip Data o změnách druhového složení luční vegetace v závislosti na managementu (sekání a hnojení): data Sylvie Pecháčkové prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout Cerinka.xls Data o sukcesi vegetace ve vápencovém lomu. prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout Cotopaxi.zip Data Zdeňka Soldána z lávových proudů Cotopaxi. prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout dalsineprime_PetrPetrik.zip Další techniky nepřímé ordinace a klasifikace dat o druhovém složení: vegetace pasek Petra Petříka prof. RNDr. Tomáš Herben, CSc.
stáhnout houby.zip Data Evy Požárové o mykofloristickém složení odkališť. prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout magda.R Jednoducha PCA pro soubor Magda. Skript na analýzu pro kontrolu (nestahujte dřív, než budete mít vlastní skript hotov!) prof. RNDr. Tomáš Herben, CSc.
stáhnout magda1.zip Data o chemickém složení půdy na loukách: zkoumání vlivu mravenců na půdu (data Magdy Březnové) prof. RNDr. Tomáš Herben, CSc.
stáhnout mravenci.zip Data Pavla Kováře z geobotanické exkurse o vegetaci mravenišť a okolní louky na třech transektech. prof. RNDr. Tomáš Herben, CSc.
stáhnout neprime_analyzy_PetrPetrik.zip Nepřímé ordinace dat o druhovém složení: vegetace pasek Petra Petříka prof. RNDr. Tomáš Herben, CSc.
stáhnout osypy.zip data o osypech prof. RNDr. Tomáš Herben, CSc.
stáhnout pastvaHM-reseni.ZIP exportovane soubory a skript na analýzu pro kontrolu (nestahujte nic z toho dřív, než budete mít vlastní skripty a exporty hotovy!) prof. RNDr. Tomáš Herben, CSc.
stáhnout PastvaHM.zip Data o vlivu pastvy na vegetaci skalní stepi v průběhu 10 let prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout PCA.pptx Presentace bez komentářů prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout PCA-Spergula.zip Úvod do mnohorozměrných analýz na příkladu PCA: data o Spergula morisonii prof. RNDr. Tomáš Herben, CSc.
stáhnout prime_analyzy_kovariaty_PetrPetrik.zip Přímé ordinace dat o druhovém složení: analýza s kovariátami (vegetace pasek Petra Petříka) prof. RNDr. Tomáš Herben, CSc.
stáhnout prime_analyzy_PetrPetrik.zip Přímé ordinace dat o druhovém složení: vegetace pasek Petra Petříka prof. RNDr. Tomáš Herben, CSc.
stáhnout prime_analyzy_slozitejsi designy.zip Složitější designy pro statistické testy: data Magdy Březnové o mraveništích prof. RNDr. Tomáš Herben, CSc.
stáhnout Přímé_analýzy1.pptx Komentovaná presentace prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout rhedl.zip Data R. Hédla o změnách vegetace bučin prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout rokle.zip Data o druhovém složení v pískovcových roklích ve vztahu k hloubce pískového náplavu prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout semvegZM.zip Data o složení vegetace a semenné banky suchých trávníků prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout skopky.R skopky - skript na analýzu pro kontrolu (nestahujte dřív, než budete mít vlastní skript hotov!) prof. RNDr. Tomáš Herben, CSc.
stáhnout skopky.zip Data o druhovém složení experimentálních společenstev suchých trávníků prof. RNDr. Tomáš Herben, CSc.
stáhnout syllabus.doc syllabus kursu prof. RNDr. Tomáš Herben, CSc.
stáhnout Testy-složitější.pptx Komentovaná presentace prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout uvod_R+vegan.zip Úvod do zacházení s balíčkem vegan prof. RNDr. Tomáš Herben, CSc.
stáhnout vypalZM.zip Data o vlivu vypalování a seče na stepní vegetaci. prof. RNDr. Zuzana Münzbergová, Ph.D.
stáhnout ziviny.zip Data o vlivu různých typů hnojení na vegetaci horské louky prof. RNDr. Zuzana Münzbergová, Ph.D.
Anotace -
Poslední úprava: Mgr. Michal Štefánek (06.10.2017)
Navazuje na přednášku Biostatistika a plánování ekologických pokusů a věnuje se tématům mnohorozměrné statistiky, s důrazem na zpracování ekologických dat. Přednáška předpokládá znalost základů jednorozměrné statistiky, zejména práce s lineárními modely.

Přednáška (včetně cvičení) probíhá turnusovou formou, někdy ke konci semestru, nebo na začátku zkouškového období.

Ve školním roce 2016/2017 poběží ve dnech 16-17.1. (Po-Ut) a 31.1.-1.2. (Ut-St). Koná se v posluchárně B12 (posluchárna ÚŽP) vždy od devíti ráno tak ca do 4 hodin odpoledne (s přestávkou na oběd).

Stručný syllabus:

• Úvod: typy problémů, typická datová struktura
• Princip mnohorozměrných technik na příkladu analýzy hlavních komponent (PCA)
• Předpoklady PCA, Standardisace dat používané v PCA
• Metody pro data s nelineární strukturou: metody využívající vážených průměrů (korespondenční analýza)
• Nepřímé a přímé gradientové techniky: v kterém okamžiku použít nezávislou informaci o prostředí
• Kanonické techniky: RDA a CCA
• Princip Monte Carlo testů
• Analýza s kovariátami: jak odstranit vlivy nezávislých proměnných (typicky proměnných prostředí), které nejsou předmětem studia
• Korelativní a manipulativní data v mnohorozměrné situaci
• Použití kanonických mnohorozměrných technik pro vyhodnocení dat z manipulativních pokusů (analogie ANOVA)
• Speciální případy v randomisačních testech (blokové uspořádání pokusu, "split-plot design", opakovaná měření a další)
• Ordinační techniky postavené na matici vzdáleností: mnohorozměrné škálování
• Základní klasifikační techniky
Požadavky ke zkoušce
Poslední úprava: prof. RNDr. Tomáš Herben, CSc. (02.12.2015)

Analýza dat z vlastní práce a její prezentace. (V případě potřeby dodáme vhodná data pro analýzu.)

Doplňovací test.

Sylabus
Poslední úprava: prof. RNDr. Tomáš Herben, CSc. (12.01.2019)

Toto je sylabus roku 2014/15. V zásadě se jej budeme držet, ale plánujeme rozšíření/přidání některých kapitol (základní klasifikační techniky, NMDS - viz přehled na stránce Anotace), takže jej postupně (ale asi až v průběhu kurzu) budeme aktualizovat.

 

Zásady

  • Úvod: typy problémů, typická datová struktura.
  • Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.
  • Základní struktura je tabulka druhy x stanoviště (jiná typická struktura: znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném druhy jako osami.
  • Jak v této tabulce najít strukturu (co to je struktura: například korelace mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty různých druhů) nějaké vztahy (korelace, ale ne nutně lineární). Mnohorozměrné etchniky selhávají, pokud mezi proměnnými korelace nejsou.
  • Dvojí použití: Vytváření hypotéz (starší), testování hypotéz (Monte Carlo testy, kovariáty).
  • Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného objektu na plátno lze učinit mnoha ekvivalentními způsoby.
  • Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy a stanovišti různým způsobem

Analýza hlavních komponent jako příklad mnohorozměrné techniky

  • Problém: regrese/korelace mezi interkorelovanými proměnnými: hledat strukturu v korelacích
  • Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit přímku. Použití této přímky k transformaci soustavy souřadnic.
  • Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu případů). Důvody.
  • Nové osy.Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat na osy právě proto, že tyto jsou nekorelované).
  • Jaké jsou jednotky nově nalezených os, kde jsou nuly.
  • Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
  • Grafy, Biplot. Jak je číst, typy biplotů.
  • Jak vypadá PCA, když jsou korelace velké, když jsou korelace malé. I malý podíl vysvětlené variance může být informativní (je-li proměnných hodně).
  • Standardisace proměnných (korelace, kovariance): jsou-li každá v jiných jednotkách (nezbytnost). Jsou-li ve stejných jednotkách: chci-li dát váhu proměnné podle jejích průměrných hodnot.
  • Standardisace po stanovištích: jsou-li mezi stanovišti velké rozdíly v ceklkové hodnotě všech proměnných (příklad pokryvnost)
  • Transformace dat.
  • Interpretace os: je třeba na základě vnější informace (znalost ekologie druhů, znalost stanovišť). Pozor na argumentaci kruhem.
  • Korelace os s měřenými daty o prostředí.
  • Podmínky PCA: linearita závislosti!

Unimodální techniky

  • Předpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit.
  • Ekologické gradienty: druhy mají svá maxima a jejich četnost klesá v obou směrech od maxima. Jak vypadá vztah mezi četnostmi druhů vzájemně.
  • Co dělá PCA v případě dlouhých gradientů (horseshoe effects, korelace nulami).
  • Korekce: předpoklad unimodálního modelu. Dva přístupy: (i) Gausovská ordinace, (ii) metody vážených průměrů (korespondenční analýza).
  • Jak se provádí CA. Je to stejná logika jako při výpočtu hodnot prostředí z pomocí Ellenbergových čísel.
  • Posice snímků na gradientu -> skóry druhů (regresní problém; součet součinů četností druhu a posice všech jeho výskytů) -> přepočtené posice snímků (kalibrační problém; součet součinů četností druhů ve snímku a jejich průměrné posice).
  • Co je výsledkem CA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. optima druhů na nových osách (m x m matice), 3. skóry stanovišť na nových osách- (n x m matice).
  • Interpretace os, charakteristická čísla (podíl vysvětlené variability).
  • Podmínky CA: rovnoměrná optima, rovnoměrné posice snímků, stejné tolerance, stejné maximální abundance.
  • Biplot/joint plot a jeho interpretace v lineární a unimodální situaci. Co znamenají posice druhů daleko od počátku.
  • Nedostatky CA: druhá osa je často nelineární funkcí osy první, komprese gradientu u krajů: korekce v detrended correspondence analysis (DCA). Velmi robustní technika.
  • Downweighting of rare species (obvykle je vhodné aktivovat)
  • Diagnostika vhodnosti modelu: jak se rozhodnout, který model je správný. Odhad délky gradientu. V jakých jednotkách se gradient měří. Dlouhé gradienty, krátké gradienty. Vynést četnost druhu proti posici stanoviště na gradientu.
  • Korelace os s měřenými daty o prostředí - lze exportovat a analyzovat v libovolném statistickém programu.

Přímé techniky: použití informace o prostředí při konstrukci hlavních os

  • PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo unimodálního modelu) a jeho dodatečná korelace s pasivními parametry prostředí (regrese na hlavních komponentách). Korelace s daty o prostředí.
  • U těchto je interpretace os vždy trochu problém: nepřímá inference.
  • Přitom data o prostředí (nezávislé proměnné) často existují. Přímá gradientová analýza: vztahy mezi druhy a vnějšími faktory
  • jednorozměrný případ (regrese, jednoduchá, mnohonásobná) - pro jeden druh a jeden faktor prostředí.
  • mnohorozměrný analog: více závislých proměnných
  • Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA (kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten směr největší variability souboru druhů, který je korelován s proměnnými prostředí. Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.
  • Rozdíl od dodatečné korelace s pasivními parametry prostředí: v kterém okamžiku použiju nezávislou informaci o prostředí
  • Kanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet proměnných a počet kanonických os. Rozklad celkové variability.
  • Předpoklad použití: linearita závislosti mezi proměnnými prostředí a hlavními osami. (V RDA jsou všechny vztahy lineární; jak je to v CCA)
  • Interkorelace mezi vysvětlujícími proměnnými: inflační faktor (problém mnohorozměrné regrese - jak vybrat vhodné proměnné) - viz víc dále
  • Nezávislé proměnné mohou být kategoriální nebo spojité.
  • Kódování nominálních proměnných: n-1 kódovacích proměnných.

Statistické testy v mnohorozměrných technikách: úvod

  • Proč mnohorozměrné testy: vyhnout se mnohonásobnému testování
  • Testy signifikance - testuji nenáhodnost uspořádání dat o druzích a dat o proměnných prostředí - tj. závislých a nezávislých proměnných (nulová H: všechna uspořádání mají stejnou šanci).
  • Co to je signifikance: šance toho, že dostanu svoje data jako výsledek náhody. Co znamená náhoda (absence závislosti - formulace nulové hypotézy). Konstrukce testového kritéria a rozdělení tohoto kritéria za předpokladu nulové hypotézy.
  • Permutační testy - numerická konstrukce rozdělení testového kritéria. Permutační testy jsou testy o vzájemném uspořádání dvou nebo více proměnných. Permutované datové soubory jsou všechny stejně pravděpodobné za platnosti H0.
  • Test první kanonické osy, testy všech os: rozdíly, vhodnost v různých situacích

Analýza s kovariátami (parciální analýza)

  • Jak odstranit vlivy prostředí, které nejsou předmětem studia (jejichž vliv je znám, nebo je nezajímavý a nebo může skrýt zajímavý vliv nějaké jiné veličiny).
  • v lineárním modelu s jednou závislou proměnnou: parciální regresní koeficienty.
  • Zobecnění pro mnohorozměrnou situaci: zavedení kovariát. Odlišení zajímavých nezavislých proměnných ("proměnných prostředí") a nezajímavých nezávislých proměnných (kovariát).
  • Rozklad vysvětlené variability jsou-li v modelu kovariáty.
  • Kovariáty v korelativních datech: problém interkorelace mezi kovariátami (=nezajímavými nezávislými proměnnými ) a proměnnými prostředí (=zajímavými nezávislými proměnnými)
  • Použití kovariát k separaci rozdílu mezi bloky, časy záznamu, plochami atd.: zejména při zpracování dat z pokusů.
  • Testy s kovariátami: oddělení efektu kovariát a proměnných prostředí.
  • Jsou-li kategoriální, je to jednoduché: Permutace v blocích (design-based permutation).
  • Jinak: permutace residuálů po odstranění efektu kovariát (model-based permutations).

Postupný výběr nezávislých proměnných

  • Problém regrese s mnoha proměnnými: jak mezi nimi vybrat, jsou-li korelované. Korelace znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici pozorování závislé veličiny).
  • Mnohonásobná lineární regrese: Koeficient determinace, regresní koeficienty závisí na všech ostatních proměnných v rovnici
  • Způsoby výběru nejlepších prediktorů. Postupný výběr nezávislých proměnných.
  • Nemusí nutně vést ke globálně nejlepšímu řešení. Každá do rovnice zahrnutá proměnná shrne i variabilitu, která v dvourozměrné analýze je připsatelná nějaké jiné (s ní korelované) proměnné.
  • Jak se provede technicky: jak poznat příspěvky jednotlivých proměnných: change in fit , test signifikance (model-based test).
  • Má kritérium být přísné nebo měkké: výhody a nevýhody.

Statistické testy v mnohorozměrných technikách: speciální případy

  • Princip permutací: je třeba zcela zachovat strukturu dat za předpokladu nulové hypotézy.Pokud nezachovám strukturu dat (tj. úplně randomisované v situaci, kdy být nemají): jsou příliš liberální, protože ruší víc závislostí než předpokládá nulová H.
  • Speciální případy v randomisačních testech.
  • I. Permutace v blocích. Design-based permutations.
  • II. Vztahy mezi plochami v prostoru - autokorelace. Jednotlivé plochy nejsou nezávislé v prostoru nebo v čase. V takovém případě může být korelace mezi proměnnými prostředí a druhovým složením dána pouze prostorovou závislostí v obou typech dat nezávisle. Na tuto závislost je třeba brát ohled v permutačních testech:  stejně jako při testech bloků nebo časových řad. žešení:
  • III. Hierarchická struktura dat: split-plot randomisace. Dvě nebo více úrovní variability: mezi subjekty a uvnitř subjektů. Jak se ošetří v randomisačním testu. Na jaké úrovni jsou zaznamenávány jaké proměnné prostředí. Počet stupňů volnosti/ nezávislých pozorování pro různé testy.
  • IV. Opakované záznamy v čase: analogie split-plot randomisace.

Použití kanonických mnohorozměrných technik pro vyhodnocení dat z manipulativních pokusů (analogie ANOVA)

  • Jaké typické mnohorozměrné situace: závislých proměnných je více, a jsou korelované (např. pokus testující vliv hnojení na floristické složení, ale i např. pokus testující vliv hnojení na kytky v květináči, zaznamenávám-li pro jednu kytku víc parametrů)
  • Problém: mnohonásobné testování.
  • Mnohorozměrná analogie jednocestné ANOVA: typicky pro kategoriální nezávislé (jak kódovat viz výše).
  • Jak technicky provést: jedna nezávislá proměnná (proměnná "prostředí") a Monte Carlo test.
  • Použití kovariát k odfiltrování rozdílů mezi bloky, časy záznamu, plochami atd.
  • Opakovaná měření (repeated measurements) téhož objektu: pozor! nejsou to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů ani počet stupňů volnosti pro stanovení vlivu ošetření.
  • Zajímá mě efekt ošetření a interakce ošetření * čas. "BACI" designs. Jakým způsobem randomisovat.
  • Dvoucestná ANOVA: při dvou nezávislých proměnných by Monte Carlo test dal jen celkový efekt obou. Přitom jsou zajímavé právě separované efekty.
  • Řešení: opět kovariáty: provést parciální Monte Carlo test. Typy randomisací.
  • Analogie analýzy kovariance.
  • 3 důležitá rozhodnutí při testování složitých dat z pokusů: (i) co bude testovaná proměnná prostředí, (ii) co budou kovariáty, (iii) jaký typ randomisace. (krom rozhodnutí uvedených níže!). Při zpracování dat z jednoho pokusu je často třeba provést víc testů (v principu každému členu v modelu ANOVA odpovídá samostatný test).

Úvod do použití software na mnohorozměrné analýzy

  • Příprava dat pro analýzu, struktura
  • jak zacházet s programovým souborem vegan
  • jak zacházet s programovým souborem CANOCO

Důležitá rozhodnutí v mnohorozměrné analýze (týká se všech analýz, přímých i nepřímých)

 

Přímá či nepřímá technika (pouze mám-li k disposici data o prostředí)

Zajímá mě vztah celkové variability dat k proměnným prostředí, nebo mě zajímá ta specifická část variability, která se vztahuje k prostředí

Unimodální či lineární analýza (PCA+RDA vs. DCA+CCA)

Rozhoduju se na základě (i) délky gradientu spočtené v DCA, (ii) grafů XY plots v CanoDraw, (iii) úvahy o délce gradientu ze znalosti vegetace či typu pokusu/proměnné prostředí

Transformace dat

Rozhoduju se na základě rozložení hodnot druhů (chci, aby rozdíl hodnot 100 - 99 byl totéž jako 2-1 nebo ne?)

Standardisace dat přes proměnné/druhy (jen u lineárních technik)

Rozhoduju se na základě toho, zda chci, aby vzácné druhy přispívaly k osám stejně jako hojné nebo v poměru svých četností

Standardisace dat přes objekty/stanoviště (jen u lineárních technik)

Rozhoduju se na základě toho, zda chci, aby četnosti druhů byly hodnoceny v závislosti na tom, jaká je celková četnost všech druhů na stanovišti, nebo na všech stanovištích stejně

Poznámka. Ve skriptech Herben T. a Z. Münzbergová: Zpracování geobotanických dat v příkladech je k nalezení také "Určovací klíč k datovým strukturám", kde krom těchto rozhodnutí je podrobný popis toho, jaké techniky použít podle toho, jak jsou data/pokus strukturovány.

Literatura a odkazy

  • Jongman, R. H. G., C. J. F. ter Braak, and O. F. R. van Tongeren, editors. 1987. Data Analysis in Community and Landscape Ecology. Pudoc, Wageningen, The Netherlands.
  • ter Braak, C. J. F., and P. Šmilauer. 1998. CANOCO Reference Manual and User's Guide to Canoco for Windows: Software for Canonical Community Ordination (version 4). Microcomputer Power (Ithaca, NY USA) 352 pp.
  • McCune B., Grace J.B., and Urban, D.L. Analysis of Ecological Communities, MjM Software Design, 2002.
  • R.H. Okland 1990: Vegetation ecology: theory, methods and applications with reference to Fennoscandia. Sommerfeltia Supplement 1. 233 pp.
  • Jan Lepš, Petr Šmilauer. 2003. Multivariate Analysis of Ecological Data using CANOCO. Cambridge University Press.
  • Lepš J. a P. Šmilauer: Mnohorozměrná analýza ekologických dat
  • Herben T. a Z. Münzbergová: Zpracování geobotanických dat v příkladech

 

 

Odkazy

 

Zásady pro strukturování vlastních datových souborů

Vhodné jsou v zásadě jakékoliv soubory, které obsahují informaci o hodnotách nějakých proměnných (druzích, biometrických proměnných, chemických a fysikálních analýzách) na jednotlivých objektech (snímcích, vzorcích/odběrech, pastech, herbářových položkách). Je vhodné, máte-li k datům ještě dodatečné informace (odběrové časy, bloky, typy stanovišť, posice v prostoru, data o prostředí ap.).

Při přípravě dat dbejte podle možnosti těchto zásad:

  • Je vhodné, aby data byla ve formátu xls (jeden typ dat vždy na jednom listu nebo v samostatném souboru)
  • Každý objekt (snímek, vzorek/odběr, past, herbářová položka) nechť má svou vlastní řádku
  • Sloupce nechť popisují jednotlivé proměnné - jak vlastní zájmové (druhy), tak i dodatečné. Alternativně (fytocenologický způsob) mohou být sloupce objekty (snímky) a řádky proměnné (druhy).
  • Každý sloupec nechť má nahoře jednu řádku se jménem proměnné (druhu nebo dodatečné proměnné). Je lépe, pokud neobsahuje speciální znaky (%, $, @, -, (), mezeru, tečku atd.) ani znaky s diakritikou a jeho délka nesmí přesáhnout 8 písmen. Totéž platí pro jména objektů (pokud je chcete používat - lze je vynechat vůbec).
  • Dodatečné kategoriální vícestavové proměnné (např. blok, geologie) nechť jsou vhodným způsobem kódovány (proměnnou s n hladinami je třeba nahradit n-1 (nebo n) proměnnými o dvou hladinách. Každá z těchto proměnných nechť má svoje jméno (např. blok1, blok2..., nebo cedic, zula, vapenec)
  • Kódy druhů je výhodné manuálně upravit tak, aby měly jen osm znaků (např. "Agro ten", nebo "Agrotenu", samozřejmě bez těch uvozovek). To lze s výhodou udělat v EXCELU třeba takovouhle funkcí: je-li v políčku A2 rodové jméno a v políčku A3 druhové jméno, pak třeba =CONCATENATE(ZLEVA(A2,4);ZLEVA(A3,4)), nebo =CONCATENATE(ZLEVA(A2,4);" ";ZLEVA(A3,3)). Pokud ve vašem výchozím souboru máte rod i druh ve stejném políčku, je k jejich rozdělení do samostatných políček možné použít Excelovou funkci Data->"Text do sloupců" a pak aplikovat postup s funkcí CONCATENATE.
  • CANOCO neumí pracovat s chybějícími hodnotami. Všechna prázdná políčka se při exportu nahradí nulami. Je potřeba vědět, zda tohle je přijatelné (pokud skutečně prázdné políčko nulu znamená). V opačném případě je třeba (i) buď odstranit druhy nebo objekty, které mají prázdné hodnoty, (ii) do prázdných políček dosadit průměrné hodnoty dané proměnné (to je ale fušerský postup, který lze použít jen tehdy, je-li těch prázdných políček málo; je každopádně třeba velmi přemýšlet, průměry čeho tam má smysl dosadit).
  • Nevynechávejte řádky, k odlišení jednotlivých podskupin dat použijte kódovací proměnné
  • Je zbytečné data složitě formátovat (barvy, ohraničení, velikost buněk), při exportu se tato informace dá použít jen obtížně

 

 







 
Univerzita Karlova | Informační systém UK