PředmětyPředměty(verze: 806)
Předmět, akademický rok 2017/2018
   Přihlásit přes CAS
Programování pro korpusovou lingvistiku - ALINV356B
Anglický název: Programming for corpus linguistics
Zajišťuje: Ústav obecné lingvistiky (21-ULING)
Fakulta: Filozofická fakulta
Platnost: od 2016
Semestr: zimní
Body: 0
E-Kredity: 3
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:0/2 Z [hodiny/týden]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Úroveň:  
Je zajišťováno předmětem: AMLV00058
Vysvětlení: Další informace lze najít po kliknutí na kód předmětu, který výuku zajišťuje.
Poznámka: předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: doc. Mgr. Václav Cvrček, Ph.D.
Rozvrh   Nástěnka   
Anotace
Poslední úprava: Mgr. Lucie Chlumská, Ph.D. (11.05.2016)

Seminář je určen pro studenty humanitních, především filologických oborů se zájmem o korpusovou lingvistiku a
počítačové zpracování textů. Nepředpokládá se žádná předchozí zkušenost s programováním, pouze základní
uživatelská práce s PC. Absolventi kurzu se naučí pracovat s moderním, jednoduchým, leč o to užitečnějším
programovacím jazykem Python a sadou nástrojů Natural Language Toolkit, která uživateli umožňuje sestavení
vlastních korpusů, jejich prohledávání, vyhodnocování analýz (frekvenční seznamy, n-gramy...) a mnoho dalšího.
Smyslem kurzu je ukázat, že na některých úkonech je snadnější, flexibilnější a rychlejší se s počítačem domluvit
volným kombinováním příkazů v plnohodnotném (programovacím) jazyce, spíš než jen posunky (klikáním myši na
položky v menu). Absolventi získají intuici i základní praktické dovednosti k tomu, aby dokázali identifikovat a
následně i vyřešit úkoly, u nichž se přímo nabízí programatický přístup. Proměníte tak repetitivní ruční práci s daty v
jednoznačnou kuchařku, podle níž za vás většinu dřiny udělá počítač.
V dalším semestru je možné navázat kurzem Programování pro korpusovou lingvistiku II, v němž se budeme
věnovat pokročilejším metodám a podíváme se za hranice jazyka Python, abychom se naučili kombinovat svoje
vlastní programy s cizími, často psanými v jiných jazycích.
Podmínky zakončení předmětu
Poslední úprava: Mgr. Lucie Chlumská, Ph.D. (11.05.2016)

Požadavky k zápočtu: pravidelná docházka, aktivní účast na seminářích, průběžné plnění zadávaných úkolů, vypracování zápočtového úkolu.

Sylabus
Poslední úprava: Mgr. Lucie Chlumská, Ph.D. (11.05.2016)

Struktura kurzu bude v hlavních obrysech sledovat obsah knížky Natural Language Processing with Python (viz http://www.nltk.org/book/), která je pozvolným, souběžným úvodem do Pythonu i Natural Language Toolkit, určeným pro humanitně zaměřené studenty.

Psát programy v jazyce Python (viz https://www.python.org/) lze mnoha různými způsoby, my budeme primárně používat prostředí Jupyter (viz https://try.jupyter.org/), které umožňuje bezprostřední interakci a je tak přívětivé k začátečníkům. Navíc běží v prohlížeči, takže odpadají starosti s instalací. Zkušenějším kolegyním a kolegům ovšem nebude nijak bráněno v tom, aby používali prostředí jiné, jsou-li na ně zvyklí.

Témata:

1.          úvod do programovacího jazyka Python

2.          práce s předpřipravenými jazykovými daty v NLTK

3.          zpracování surových textových dat

-            formát "čistého textu", kódování

-            regulární výrazy

4.          lingvistická anotace textu:

-            morfologické a syntaktické značkování

-            klasifikace textů a extrakce informace

-            gramatiky

-            sémantická analýza

5.          pokročilejší Python

 
Univerzita Karlova | Informační systém UK