Poslední úprava: Mgr. Lucie Lukešová, Ph.D. (09.10.2018)
Cíl semináře
Seminář je určen především pro anglisty, studenty oboru PTA, ale i zájemce z jiných lingvistických oborů, které zajímá kvantitativní pohled na jazyk a využití anglických i českých korpusů při studiu, výzkumu nebo v překladatelské praxi. V průběhu semestru se studenti naučí pracovat s korpusovými manažery KonText (dříve NoSketch Engine) (pro korpusy Českého národního korpusu i BNC a pro paralelní korpusy InterCorp) a BNC-Web (pro British National Corpus) a rovněž si vyzkouší práci s webovými rozhraními pro korpusy COCA a COHA. Dále budou v semináři probírána témata, jako je reprezentativnost korpusů a jejich složení, kolokace, vytváření subkorpusů podle zadaných parametrů, využití korpusů v kontrastivní lingvistice a další. Seminář je vyučován česky, ale hojně využívá anglické terminologie i anglicky psané literatury oboru. Počet studentů v semináři je z kapacitních důvodů omezen na 10. Na seminář volně navazují semináře Angličtina a korpusy II a III pod záštitou ÚAJD, rovněž je možné pokračovat ve studiu korpusové lingvistiky v dalších seminářích vypisovaných ÚČNK.
Poslední úprava: Mgr. Lucie Lukešová, Ph.D. (09.10.2018)
This course is intended mainly for students of English as a first introduction to corpus linguistics and corpus-based research. Its main objective is to show advantages of a corpus-based analysis and description of language and to teach students how to use corpora for their own linguistic research. The course is practical (hands-on), students work at the computers the whole time. During the course, they learn how to work with several corpus clients (interfaces: KonText, BNC-Web, COCA etc.), i.e. how to form a complex query and how to analyze the results using basic statistics and interface functions. The course also includes an introduction to the structure and philosophy of the corpora bundled within the Czech National Corpus project (especially the English-Czech part of the InterCorp parallel corpus), to the British National Corpus and American corpora COCA, COHA or Time. Moreover, several corpus-based tools – freely available – will be introduced, such as Treq (for the analysis of translation equivalents) or KWords (for the analysis of keywords in texts). Two lessons (at minimum) will be reserved for the introduction to free software tools enabling users to assemble and analyse their own corpora (e.g. AntConc and LancsBox).
As a necessary theoretical background, some of the basic notions of corpus linguistics (such as collocations, representativeness of corpora, n-grams, word sketches etc.) will be explained.
Podmínky zakončení předmětu
Poslední úprava: Mgr. Zuzana Freitas Lopesová (06.11.2017)
Požadavky k zápočtu: aktivní účast na seminářích, samostatné zpracování lingvistického jevu (angličtina) korpusovými metodami a jeho prezentace v závěrečné hodině.
Všechny požadavky pro zápočet je nutné splnit do konce zkouškového období akademického roku, ve kterém si student předmět zapsal.
Literatura -
Poslední úprava: Mgr. Lucie Lukešová, Ph.D. (07.10.2013)
Doporučená literatura:
Baayen, H. R.: Analyzing Linguistic Data. Cambridge University Press, Cabridge 2008.
Biber, D. - Conrad, S. - Reppen, R.: Corpus Linguistics: Investigating Language Structure and Use (Cambridge Approaches to Linguistics). Cambridge: Cambridge University Press. 1998.
Biber, D. - Conrad, S. - Leech, G. - Finegan, E. - Johansson, S.: Longman Grammar of Spoken and Written English, Longmann. England 2000.
Biber, D. - Conrad, S.: Real Grammar. Pearson Longman. NY 2009.
Cheng, W.: Exploring Corpus Linguistics: Language in Action. Routledge, 2012.
Čermák F. - Klímová J. - Petkevič V. (eds.): Studie z korpusové lingvistiky. Karolinum, Praha 2000.
Čermák, F. - Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. NLN, Praha 2006.
Čermák, F. - Šulc, M. (eds.): Kolokace. Nakladatelství Lidové noviny, Praha 2006.
Gries, S. Th. - Wulff, S. - Davies, M. (eds.): Corpus-linguistic applications, Rodopi 2010.
Hunston, S.: Corpora in Applied Linguistics. Cambridge University Press, 2002.
McEnery, T. – Hardie, A.: Corpus linguistics: method, theory and practice. Cambridge University press, 2012.
Oakes, M. P.: Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh 1998.
Quirk, R. - Greenbaum, S. - Leech, G. - Svartvik, J.: A Grammar of Contemporary English. Longman Group United Kingdom 1972.
Sinclair, J.: Trust the text. Routledge. London. 2004.
Teubert, W. - Krishnamurthy, R. (eds.): Corpus Linguistics Vol. I-VI, Critical Concepts in Linguistics, Routledge 2007.
and http://www.korpus.cz, http://bncweb.lancs.ac.uk, http://corpus.byu.edu/
Poslední úprava: Mgr. Lucie Lukešová, Ph.D. (07.10.2013)
Materials and literature
Baayen, H. R.: Analyzing Linguistic Data. Cambridge University Press, Cabridge 2008.
Biber, D. - Conrad, S. - Reppen, R.: Corpus Linguistics: Investigating Language Structure and Use (Cambridge Approaches to Linguistics). Cambridge: Cambridge University Press. 1998.
Biber, D. - Conrad, S. - Leech, G. - Finegan, E. - Johansson, S.: Longman Grammar of Spoken and Written English, Longmann. England 2000.
Biber, D. - Conrad, S.: Real Grammar. Pearson Longman. NY 2009.
Cheng, W.: Exploring Corpus Linguistics: Language in Action. Routledge, 2012.
Čermák F. - Klímová J. - Petkevič V. (eds.): Studie z korpusové lingvistiky. Karolinum, Praha 2000.
Čermák, F. - Blatná, R.: Korpusová lingvistika: Stav a modelové přístupy. NLN, Praha 2006.
Čermák, F. - Šulc, M. (eds.): Kolokace. Nakladatelství Lidové noviny, Praha 2006.
Gries, S. Th. - Wulff, S. - Davies, M. (eds.): Corpus-linguistic applications, Rodopi 2010.
Hunston, S.: Corpora in Applied Linguistics. Cambridge University Press, 2002.
McEnery, T. – Hardie, A.: Corpus linguistics: method, theory and practice. Cambridge University press, 2012.
Oakes, M. P.: Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh 1998.
Quirk, R. - Greenbaum, S. - Leech, G. - Svartvik, J.: A Grammar of Contemporary English. Longman Group United Kingdom 1972.
Sinclair, J.: Trust the text. Routledge. London. 2004.
Teubert, W. - Krishnamurthy, R. (eds.): Corpus Linguistics Vol. I-VI, Critical Concepts in Linguistics, Routledge 2007.
and http://www.korpus.cz, http://bncweb.lancs.ac.uk, http://corpus.byu.edu/
Sylabus -
Poslední úprava: Mgr. Lucie Lukešová, Ph.D. (03.01.2014)
Učitel: Mgr. Lucie Chlumská lucie.chlumska@ff.cuni.cz, lucie.chlumska@gmail.com Místnost: S131 na hlavní budově FF UK (vzadu ve dvoře)
The course consists of 12-13 lessons (2 academic hours). 1. introduction to the course, registration to the corpora (CNC, BNC, COCA) 2. introduction to corpus linguistics, types of corpora, basic queries, regular expressions (use of wild characters, operators of repetition etc.), KonText interface 3. principles of lemmatisation and morphological tagging of corpora (stochastic methods, rule-based methods of disambiguation), CQL (corpus query language), using lemmas and tags in complex queries 4. advanced regular expressions (logical operators), filters - positive and negative, creating subcorpora based on different metadata, concept of representativeness in corpora of spoken and written language 5. the InterCorp parallel corpus, searching for translation equivalents, false friends in translation, creating subcorpora on a parallel corpus 6. collocations and statistical methods for their identification 7. corpora in translation studies, translation universals in English 8. BNC - about the corpus, BNC Web interface 9. English spoken corpora (incl. spoken part of the BNC), corpus-based vs. corpus-driven approach 10. COCA, COHA and other corpora in Mark Davies’ interface, querying 11. British and American English - case studies 12. other English corpora and interfaces, building a corpus, AntConc (clusters, keywords) 13. presentation of students' work, discussion
Rozsah: 0/2 (jednosemestrální kurs otevíraný vždy v zimním semestru) Atestace: Z Kredity: Kredity: 5 Požadavky k zápočtu: aktivní účast na seminářích, samostatné zpracování lingvistického jevu (angličtina) korpusovými metodami a jeho prezentace v závěrečné hodině
Poslední úprava: Mgr. Lucie Lukešová, Ph.D. (03.01.2014)
Teacher: Mgr. Lucie Chlumská lucie.chlumska@ff.cuni.cz, lucie.chlumska@gmail.com Room: S131 (vzadu ve dvoře), Jana Palacha 2
The course consists of 12-13 lessons (2 academic hours). 1. introduction to the course, registration to the corpora (CNC, BNC, COCA) 2. introduction to corpus linguistics, types of corpora, basic queries, regular expressions (use of wild characters, operators of repetition etc.), KonText interface 3. principles of lemmatisation and morphological tagging of corpora (stochastic methods, rule-based methods of disambiguation), CQL (corpus query language), using lemmas and tags in complex queries 4. advanced regular expressions (logical operators), filters - positive and negative, creating subcorpora based on different metadata, concept of representativeness in corpora of spoken and written language 5. the InterCorp parallel corpus, searching for translation equivalents, false friends in translation, creating subcorpora on a parallel corpus 6. collocations and statistical methods for their identification 7. corpora in translation studies, translation universals in English 8. BNC - about the corpus, BNC Web interface 9. English spoken corpora (incl. spoken part of the BNC), corpus-based vs. corpus-driven approach 10. COCA, COHA and other corpora in Mark Davies’ interface, querying 11. British and American English - case studies 12. other English corpora and interfaces, building a corpus, AntConc (clusters, keywords) 13. presentation of students' work, discussion
Evaluation Credits: 5 (Z) a) active participation in lessons b) presentation of individual corpus-based research