Angličtina a korpusy - AAA300120
Anglický název: English Language and Corpus Linguistics
Zajišťuje: Ústav anglického jazyka a didaktiky (21-UAJD)
Fakulta: Filozofická fakulta
Platnost: od 2015
Semestr: oba
Body: 0
E-Kredity: 4
Způsob provedení zkoušky:
Rozsah, examinace: 0/2, Z [HT]
Počet míst: zimní:neurčen / neurčen (neurčen)
letní:neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Kompetence:  
Stav předmětu: nevyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Je zajišťováno předmětem: AAA500120
Poznámka: předmět lze zapsat v ZS i LS
Garant: prof. Mgr. Václav Cvrček, Ph.D.
Mgr. Dominika Kováříková, M.A., Ph.D.
Rozvrh   Nástěnka   
Anotace -
Poslední úprava: BRUHOVA/PEDF.CUNI.CZ (23.09.2010)
Objectives
This course is for all prospective users of language corpora. Its main objective is to show advantages of a corpus-based description of language and to teach students how to use corpora for their own linguistic research. The practical part of this course includes working with corpus client Bonito, and an introduction to the structure and philosophy of the corpora bundled in the Czech National Corpus project (namely SYN2005, Oral2008 and InterCorp) and to the British National Corpus. In the theoretical part, we will examine some basic notions of corpus linguistics such as collocations, representativeness of corpora, word sketches etc.
Literatura -
Poslední úprava: BRUHOVA/PEDF.CUNI.CZ (23.09.2010)

Materials and literature

Baayen, H. R.: Analyzing Linguistic Data, Cambridge University Press, Cabridge 2008.

Bartoň, T. - Cvrček, V. - Čermák, F. - Jelínek, T. - Petkevič, V.: Statistiky češtiny. NLN, Praha 2009.

Biber, D. - Conrad, S. - Reppen, R.: Corpus Linguistics: Investigating Language Structure and Use (Cambridge Approaches to Linguistics). Cambridge: Cambridge University Press. 1998.

Biber, D. - Conrad, S. - Leech, G. - Finegan, E. - Johansson, S.: Longman Grammar of Spoken and Written English, Longmann. England 2000.

Biber, D. - Conrad, S.: Real Grammar. Pearson Longman. NY 2009.

Blatná, R.: Víceslovné předložky v současné češtině. NLN, Praha 2006.

Cvrček, V.: Regulace jazyka a Koncept minimální intervence. NLN, Praha 2008.

Čermáková, A.: Valence českých substantiv. NLN, Praha 2009.

Čermák F. - Klímová J. - Petkevič V. (eds.): Studie z korpusové lingvistiky. Karolinum, Praha 2000.

Čermák F.: Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost 56, 1995, (s. 119-140)

Čermák, F. - Blatná, R. (eds.): Jak využívat Český národní korpus. NLN, Praha 2005.

Čermák, F. - Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. NLN, Praha 2006.

Čermák, F. - Šulc, M. (eds.): Kolokace. Nakladatelství Lidové noviny, Praha 2006.

Esvan, F.: Vidová morfologie českého slovesa. NLN, Praha 2007.

Gries, S. Th.: Quantitative Corpus Linguistics with R, Routledge 2009.

Gries, S. Th. - Wulff, S. - Davies, M. (eds.): Corpus-linguistic applications, Rodopi 2010.

Kocek, J. - Kopřivová, M. - Kučera, K. (eds.): Český národní korpus - úvod a příručka uživatele. ÚČNK FF UK, Praha 2000.

Kopřivová, M.: Valence českých adjektiv. NLN, Praha 2006.

Kopřivová, M. - Waclawičová, M.: Čeština v mluveném korpusu. NLN, Praha 2008.

Oakes, M. P.: Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh 1998.

Quirk, R. - Greenbaum, S. - Leech, G. - Svartvik, J.: A Grammar of Contemporary English. Longman Group United Kingdom 1972.

Sinclair, J.: Trust the text. Routledge. London. 2004.

Šonková, J.: Morfologie mluvené češtiny: Frekvenční analýza. NLN, Praha 2008.

Teubert, W. - Krishnamurthy, R. (eds.): Corpus Linguistics Vol. I-VI, Critical Concepts in Linguistics, Routledge 2007.

and http://www.korpus.cz - section "Manuál a instalace manažeru Bonito" (Manual and installation of the corpus manager Bonito)

Sylabus -
Poslední úprava: BRUHOVA/PEDF.CUNI.CZ (23.09.2010)

Teacher: Mgr. Václav Cvrček, PhD. & Mgr. Lucie Chlumská

vaclav.cvrcek@ff.cuni.cz; chlumska@trnka.ff.cuni.cz

Room: Computer lab, Národní 37 (Room 7)

Structure of this course

The course consists of 13 lessons (2 hours).

1. introduction to corpus linguistics, registration, structure of corpora in the Czech National Corpus project and British National Corpus

2. CQL (corpus query language), basic regular expressions (use of wild characters, operators of repetition etc.)

3. advanced regular expressions (logical operators, filters - positive and negative, using graphical interface for creating complex queries)

4. word - lemma - tag, principles of lemmatisation and morphological tagging of corpora (stochastic methods, rule-based methods of disambiguation); using lemmas and tags in complex queries

5. concept of representativeness in corpora of spoken and written language, Heaps' law and its consequences for corpus size

6. internal structure of the corpus (opus, document, sentence), text types (fiction, newspapers, science; formal, informal speech), work with subcorpora

7. collocations and statistical methods for their identification; multi-word units in the description of language (lexicon, grammar)

8. word-sketches, co-occurrences and semantic prosody; corpus-based syntagmatic and paradigmatic approach to language units

9. parallel and multilingual corpora (InterCorp)

10. basic statistics for corpus linguistics (mean, standard deviation, chi-square, normal distribution, correlation, Zipf's laws)

11. corpus-based vs. corpus-driven approach; corpus applications: phonology (graphemics), morphology (language system vs. prototypes)

12. corpus applications: lexicography (automatic term recognition, collocations dictionaries), syntax, stylometry

13. presentation of students' work, discussion

Evaluation

Credits: 5 (Z)

a) active participation in lessons

b) presentation of individual corpus-based research

Credits: 10 (Z+PP)

a) active participation in lessons

b) presentation of individual corpus-based research

c) essay describing methods used and conclusions made in the research (emphasis is laid on interpretation of facts)