More advanced students of corpus linguistics, who have already participated in any basic corpus linguistic
seminar, can use this course to deepen their competence in statistical data analysis. The course focuses on the
statistical theory (in particular issues of corpus linguistics and specific distributions of language data) as well as on
relevant computational skills for data analytics using R. The course requires common computer user skills (no
explicit programming background).
Last update: G_I (26.05.2015)
Pokročilejší zájemci o korpusovou lingvistiku, kteří absolvovali libovolný základní seminář práce s korpusy, mohou
v rámci tohoto semináře prohloubit svoje znalosti statistického zpracování dat. Kurs je zaměřen jak na statistickou
teorii (zejména otázky týkající se korpusové lingvistiky a specifických rozdělení jazykových dat) i na praktické
zvládnutí nástrojů na provádění výpočtu (zejm. R). Kurs předpokládá uživatelskou znalost práce s PC.
Last update: G_I (26.05.2015)
Course completion requirements -
active participation in the lessons (max 3 absences)
all homeworks submitted within deadlines
if DataCamp is used (free for students) the student is obliged to collect 20 000 XP during our course. These points must come from the following R courses:
Introduction to R
Intermediate R
Data Manipulation in R with dplyr
Cleaning Data in R
Data Visualization with ggplot2 Part 1
Data Visualization with ggplot2 Part 2
Working with the RStudio IDE Part 1, Part 2
Importing Data in R Part 1
In case the student has already completed these courses before, they must collect 20 000 XP from other R courses.
Any individual exceptions are up to the teachers.
Last update: Cinková Silvie, Mgr., Ph.D. (12.05.2022)
aktivní účast na hodinách (přípustné jsou 3 nepřítomnosti)
všechny domácí úkoly odevzdané v termínu
pokud v daném semestru používáme online kurz DataCamp (pro studenty zdarma), je povinných 20 000 XP během trvání našeho kurzu. Tyto body musí pocházet z těchto kurzů R:
Introduction to R
Intermediate R
Data Manipulation in R with dplyr
Cleaning Data in R
Data Visualization with ggplot2 Part 1
Data Visualization with ggplot2 Part 2
Working with the RStudio IDE Part 1, Part 2
Importing Data in R Part 1
Pokud student tyto online kurzy již absolvoval, musí nasbírat 20 000 XP z dalších kurzů R.
Výjimky jsou výhradně na zvážení vyučujících.
Last update: Cinková Silvie, Mgr., Ph.D. (12.05.2022)
Literature -
Baayen, H. R.: Analyzing Linguistic Data, Cambridge University Press, Cambridge 2008.
Baayen, H. R.: Word Frequency Distributions. Kluwer Academic Publishers. Dordrecht/Boston/London 2010.
Bartoň, T. - Cvrček, V. - Čermák, F. - Jelínek, T. - Petkevič, V. (2009): Statistiky češtiny. Nakladatelství Lidové
noviny, Praha 2009.
Gries, S. Th.: Quantitative Corpus Linguistics with R, Routledge 2009.
Gries, S. Th.: Statistics for Linguistics with R. A Practical Introduction. Mouton De Gruyter 2013 (2nd revised edition).
Oakes, M. P.: Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh 1998.
Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
Last update: G_I (26.05.2015)
Baayen, H. R.: Analyzing Linguistic Data, Cambridge University Press, Cambridge 2008.
Baayen, H. R.: Word Frequency Distributions. Kluwer Academic Publishers. Dordrecht/Boston/London 2010.
Bartoň, T. - Cvrček, V. - Čermák, F. - Jelínek, T. - Petkevič, V. (2009): Statistiky češtiny. Nakladatelství Lidové
noviny, Praha 2009.
Gries, S. Th.: Quantitative Corpus Linguistics with R, Routledge 2009.
Gries, S. Th.: Statistics for Linguistics with R. A Practical Introduction. Mouton De Gruyter 2013 (2nd revised edition).
Oakes, M. P.: Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh 1998.
Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.
Last update: G_I (26.05.2015)
Syllabus -
1. Typical topics of corpus studies, relevance of quantitative methods in linguistics, hypothesis formulation
2. Basic functions of R:
file loading, writing, saving
functions and arguments
vectors, factors, lists, data frames: generation, loading, saving, editing
data navigation, regular expressions
Descriptive statistics: basic concepts and functions in R
Last update: T_UFAL (13.05.2014)
1. Témata korpusových studií, relevance kvantitativních metod v lingvistice, stanovení hypotézy
2. Základní funkce v R:
načítání souborů, zápis do souborů, ukládání
funkce a argumenty
vektory, faktory, seznamy, data frames: generování, čtení, ukládání, editace
navigace v datech, regulární výrazy
Deskriptivní statistika - základní pojmy a funkce v R