Last update: Ing. Jindřiška Peterková (06.09.2021)
The course is taught in person or online, depending on the epidemiological situation and the interest of students. In case of greater interest from students, the course will take place online to provide hygiene recommendations.
The recent progress of Next Generation Sequencing (NGS) technologies led to a huge increase in the amount of data that biologists have to deal with. The usual amount of generated data is far beyond the capacity of common data analysis tools on the Microsoft Windows platform. The Unix environment provides efficient tools for handling large amounts of genomic data.
Participants of the course will gain sufficient skills and confidence in the Unix environment to use it for analysis of genomic data. The participants will explore the possibilities of the system using the examples of NGS data manipulation, analysis and visualization. The focus of the course is not one particular NGS analysis, but to teach the participants how to comfortably use any Unix tool to pursuit their scientific goals. The course is recommended for master’s degree and PhD students.
If all participants understand Czech, we will teach in Czech (otherwise in English).
Last update: Ing. Jindřiška Peterková (06.09.2021)
Předmět je vyučován prezenčně nebo online formou v závislosti na epidemiologické situaci a zájmu studentů. V případě většího zájmu ze strany studentů bude kurz probíhat online z důvodu zajištění hygienických doporučení. Formu kurzu potvrdíme s dostatečným předstihem.
Pokrok v Next Generation Sequencing (NGS) technologiích vedl k velkému nárůstu v množství dat, s nimiž se setkávají biologové. Běžné datasety přesahují kapacitu, kterou je možno zpracovávat pomocí platform běžících pod operačními systémy Microsoft Windows. Prostředí Unix poskytuje efektivní nástroje pro zpracování těchto velkých datasetů, zejména genomických dat.
Účastníci kurzu získají užitečné znalosti a rutinní schopnost práce v prostředí Unix pro analýzu genomických dat.
Syllabus -
Last update: Mgr. Václav Janoušek, Ph.D. (15.09.2015)
I. Introduction to Unix - Learn about the Unix philosophy.
II. Basic Unix - Learn to use the basic commands (cd, ls, ll, mkdir, mv, cp, pwd, htop, screen, grep, globbing, less, head, tail, cat, cut, sort, uniq, paste, join, pipes).
III. Advanced Unix - Learn basics of awk, sed, regular expressions, shell scripting, shell variables, parallel, subshells.
IV. Introduction to Genomics - Learn how ‘genomes’ are made.
V. Data visualization - Learn how to format your data for effective visualization and how to use RStudio, tidyr, dplyr and ggplot2 to explore your data visually.
VI. Read quality assessment - Learn how to use Unix to explore FASTQ files, calculate some basic statistics, assess read quality, filter out low-quality reads.
VII. Genome assembly - Learn how to do a (small) genome assembly.
VIII. Variant calling - Learn how to use the original NGS reads and a genome assembly to call variants.
IX. Standard annotation formats - Learn how information on genes, variants and genome properties is stored (GFF, VCF, BED formats) and how to obtain quick summaries with impressive speed (bedtools, vcftools, etc.)
X. A lot of practice.
Last update: RNDr. Jana Rubešová, Ph.D. (22.05.2018)
1. Úvod do prostředí Unix.
II. Základy Unixu - základní příkazy (cd, ls, ll, mkdir, mv, cp, pwd,