PředmětyPředměty(verze: 901)
Předmět, akademický rok 2021/2022
  
Automatické zpracování textových dat - NPFL098
Anglický název: Automatic Text Data Processing
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2021 do 2021
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: nevyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl098
Poznámka: předmět je určen pouze pro doktorandy
Garant: Mgr. Pavel Straňák, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Neslučitelnost : NPFL131
Záměnnost : NPFL131
Je neslučitelnost pro: NPFL131
Je záměnnost pro: NPFL131
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů. Získané dovednosti by měly usnadnit samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)

Ústní zkouška.

Podmínkou připuštění ke zkoušce je získání zápočtu.

Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >50% bodů z těchto úkolů.

Literatura -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)

Prezentace z výuky: http://ufal.mff.cuni.cz/courses/npfl098

Perl pro zelenáče – 3. vydání z https://knihy.nic.cz

Learning Perl, 7th Edition (nejméně 5th Edition)

Pro Git z https://knihy.nic.cz

Learning the bash Shell

Linux Pocket Guide

Požadavky ke zkoušce -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)

Zkouší se z obsahu vyloženého na přednáškách.

Sylabus -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)

Na ukázkových textech většího rozsahu si ukážeme

základní metody zpracování textu potřebné pro získání netriviálních

informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla

Čapka a různá další díla v jazycích dle zaměření frekventantů.

 • Význam a vlastnosti velkých dat
 • unixový shell; nejzákladnější příkazy
 • další příkazy pro manipulaci s texty
 • textové editory
 • vyhledávání pomocí regulárních výrazů
 • využití regulárních výrazů pro úpravy textu
 • základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
 • odstranění diakritiky, segmentace na věty, tokenizace
 • pravidlové automatické určení slovních druhů
 • vytvoření vlastního korpusu
 • "NLP workflow engines" - GATE, OpenNLP, Treex
 • automatická komplexní analýza korpusu
 • vizualizace analýzy a výsledků
 
Univerzita Karlova | Informační systém UK