Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů. Získané dovednosti by měly usnadnit samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
An introductory course for automatic text processing using the most common and
efficient tools and methods. The skills acquired during the course will benefit any
scientific work that involves large texts and they are also required for serious study of
computational linguistics.
Literatura -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Prezentace z výuky 2012: http://ufal.mff.cuni.cz/~stranak/2012/index.html
Learning Perl, Fifth Edition
Learning the bash Shell
Linux Pocket Guide
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
http://ufal.mff.cuni.cz/~stranak/2012/index.html
Learning Perl, Fifth Edition
Learning the bash Shell
Linux Pocket Guide
Sylabus -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Na ukázkových textech většího rozsahu si ukážeme
základní metody zpracování textu potřebné pro získání netriviálních
informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla
Čapka a různá další díla v jazycích dle zaměření frekventantů.
Význam a vlastnosti velkých dat
unixový shell; nejzákladnější příkazy
další příkazy pro manipulaci s texty
textové editory
vyhledávání pomocí regulárních výrazů
využití regulárních výrazů pro úpravy textu
základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
odstranění diakritiky, segmentace na věty, tokenizace
pravidlové automatické určení slovních druhů
vytvoření vlastního korpusu
"NLP workflow engines" - GATE, OpenNLP, Treex
automatická komplexní analýza korpusu
vizualizace analýzy a výsledků
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
We will use large texts from the students' field of study to demonstrate the
most important methods of text processing required to acquire non-trivial
information or verify hypotheses.
An impact of large text data: properties of big data
unix shell and basic commands
more commands for text processing
text editors
searching via regular expressions
using regular expressions for text maniplation
formulation and verification of hypotheses, application on data, precission, recall
example applications: stripping diacritics, sentence segmentation, tokenisation