PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Teoretické základy statistického vyhodnocování jazykových dat v R - NPFL111
Anglický název: Theory of Statistical Analysis in R for Linguists
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:2/0, Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: nevyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: Mgr. Silvie Cinková, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Neslučitelnost : NPFL137
Záměnnost : NPFL137
Je neslučitelnost pro: NPFL137
Je záměnnost pro: NPFL137
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: G_I (26.05.2015)
Pokročilejší zájemci o korpusovou lingvistiku, kteří absolvovali libovolný základní seminář práce s korpusy, mohou v rámci tohoto semináře prohloubit svoje znalosti statistického zpracování dat. Kurs je zaměřen jak na statistickou teorii (zejména otázky týkající se korpusové lingvistiky a specifických rozdělení jazykových dat) i na praktické zvládnutí nástrojů na provádění výpočtu (zejm. R). Kurs předpokládá uživatelskou znalost práce s PC.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Silvie Cinková, Ph.D. (12.05.2022)
  • aktivní účast na hodinách (přípustné jsou 3 nepřítomnosti)
  • všechny domácí úkoly odevzdané v termínu
  • pokud v daném semestru používáme online kurz DataCamp (pro studenty zdarma), je povinných 20 000 XP během trvání našeho kurzu. Tyto body musí pocházet z těchto kurzů R:

Introduction to R

Intermediate R

Data Manipulation in R with dplyr

Cleaning Data in R

Data Visualization with ggplot2 Part 1

Data Visualization with ggplot2 Part 2

Working with the RStudio IDE Part 1, Part 2

Importing Data in R Part 1

Pokud student tyto online kurzy již absolvoval, musí nasbírat 20 000 XP z dalších kurzů R.

Výjimky jsou výhradně na zvážení vyučujících.

Literatura -
Poslední úprava: G_I (26.05.2015)

Baayen, H. R.: Analyzing Linguistic Data, Cambridge University Press, Cambridge 2008.

Baayen, H. R.: Word Frequency Distributions. Kluwer Academic Publishers. Dordrecht/Boston/London 2010.

Bartoň, T. - Cvrček, V. - Čermák, F. - Jelínek, T. - Petkevič, V. (2009): Statistiky češtiny. Nakladatelství Lidové

noviny, Praha 2009.

Gries, S. Th.: Quantitative Corpus Linguistics with R, Routledge 2009.

Gries, S. Th.: Statistics for Linguistics with R. A Practical Introduction. Mouton De Gruyter 2013 (2nd revised edition).

Oakes, M. P.: Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh 1998.

Volín, J. (2007): Statistické metody ve fonetickém výzkumu. Praha: Epocha.

Sylabus -
Poslední úprava: T_UFAL (13.05.2014)

1. Témata korpusových studií, relevance kvantitativních metod v lingvistice, stanovení hypotézy

2. Základní funkce v R:

  • načítání souborů, zápis do souborů, ukládání
  • funkce a argumenty
  • vektory, faktory, seznamy, data frames: generování, čtení, ukládání, editace
  • navigace v datech, regulární výrazy
  • Deskriptivní statistika - základní pojmy a funkce v R

 
Univerzita Karlova | Informační systém UK