Posluchači se seznámí se základními nástroji pro automatické
zpracování textu. Získané dovednosti by měly usnadnit samostatnou
vědeckou práci i případné další studium počítačové lingvistiky, kde se
praktické zvádnutí těchto nástojů předpokládá.
Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (01.10.2010)
Sylabus
Na ukázkových textech většího rozsahu si ukážeme
základní metody zpracování textu potřebné pro získání netriviálních
informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla
Čapka a různá další díla v jazycích dle zaměření frekventantů.
Zpracování textu jako nutný základ (nejen) komputační linvistiky
Proč používat unixový shell; nejzákladnější příkazy
další příkazy pro manipulaci s texty
textové editory
vyhledávání pomocí regulárních výrazů
využití regulárních výrazů pro úpravy textu
základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
odstranění diakritiky, segmentace na věty, tokenizace
pravidlové automatické určení slovních druhů
Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (01.10.2010)