SubjectsSubjects(version: 861)
Course, academic year 2019/2020
  
Programming for corpus linguistics - ALINV356B
Title: Programování pro korpusovou lingvistiku
Guaranteed by: Institute of Linguistics (21-ULING)
Faculty: Faculty of Arts
Actual: from 2018
Semester: winter
Points: 0
E-Credits: 3
Examination process: winter s.:
Hours per week, examination: winter s.:0/2 C [hours/week]
Capacity: unknown / unknown (10)
Min. number of students: unlimited
State of the course: taught
Language: Czech
Teaching methods: full-time
Level:  
Is provided by: AMLV00058
Explanation: Další informace lze najít po kliknutí na kód předmětu, který výuku zajišťuje.
Note: course can be enrolled in outside the study plan
enabled for web enrollment
Guarantor: Mgr. David Lukeš
Annotation -
Last update: Mgr. David Lukeš (09.01.2018)
Introduction to programming in Python for linguists, part I. The course is taught
mainly in Czech and therefore requires sufficient proficiency in order to attend.
Course completion requirements -
Last update: Mgr. Dominika Kováříková, M.A., Ph.D. (08.12.2019)

The course is taught mainly in Czech and therefore requires sufficient proficiency in order to attend.

Literature -
Last update: Mgr. David Lukeš (16.08.2018)

Bird, S., Klein, E., & Loper, E. (2014). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. Retrieved from http://www.nltk.org/book/

Gries, P., Campbell, J., & Montojo, J. (2013). Practical Programming: An Introduction to Computer Science Using Python 3 (2nd ed.). Dallas, Texas: Pragmatic Bookshelf.

Jurafsky, D., & Martin, J. H. (2019). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (3rd ed.). Retrieved from https://web.stanford.edu/~jurafsky/slp3/

Lukeš, D. (2016, January 27). How computers handle text: A gentle but thorough introduction to Unicode. Retrieved August 15, 2018, from https://dlukes.github.io/unicode.html

Matthes, E. (2015). Python Crash Course: A Hands-On, Project-Based Introduction to Programming (1st ed.). San Francisco: No Starch Press.

McEnery, T., & Hardie, A. (2011). Corpus Linguistics: Method, Theory and Practice. Cambridge University Press.

Moran, S., & Cysouw, M. (2018). The Unicode cookbook for linguists: managing writing systems using orthography profiles. Berlin: Language Science Press. Retrieved from http://langsci-press.org/catalog/book/176

Skiena, S. S. (2008). The Algorithm Design Manual. London: Springer London. https://doi.org/10.1007/978-1-84800-070-4

Sweigart, A. (2018). Cracking Codes with Python: An Introduction to Building and Breaking Ciphers. San Francisco: No Starch Press.

Vaughan, L. (2018). Impractical Python: Playful Programming Activities to Make You Smarter. San Francisco: No Starch Press.

Zinoviev, D. (2016). Data Science Essentials in Python: Collect – Organize – Explore – Predict – Value (1st ed.). Raleigh, North Carolina: Pragmatic Bookshelf.

Syllabus - Czech
Last update: Mgr. Lucie Lukešová, Ph.D. (11.05.2016)

Struktura kurzu bude v hlavních obrysech sledovat obsah knížky Natural Language Processing with Python (viz http://www.nltk.org/book/), která je pozvolným, souběžným úvodem do Pythonu i Natural Language Toolkit, určeným pro humanitně zaměřené studenty.

Psát programy v jazyce Python (viz https://www.python.org/) lze mnoha různými způsoby, my budeme primárně používat prostředí Jupyter (viz https://try.jupyter.org/), které umožňuje bezprostřední interakci a je tak přívětivé k začátečníkům. Navíc běží v prohlížeči, takže odpadají starosti s instalací. Zkušenějším kolegyním a kolegům ovšem nebude nijak bráněno v tom, aby používali prostředí jiné, jsou-li na ně zvyklí.

Témata:

1.          úvod do programovacího jazyka Python

2.          práce s předpřipravenými jazykovými daty v NLTK

3.          zpracování surových textových dat

-            formát "čistého textu", kódování

-            regulární výrazy

4.          lingvistická anotace textu:

-            morfologické a syntaktické značkování

-            klasifikace textů a extrakce informace

-            gramatiky

-            sémantická analýza

5.          pokročilejší Python

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html