Last update: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
An introductory course for automatic text processing using the most common and
efficient tools and methods. The skills acquired during the course will benefit any
scientific work that involves large texts and they are also required for serious study of
computational linguistics.
Last update: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů. Získané dovednosti by měly usnadnit samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Literature -
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
http://ufal.mff.cuni.cz/~stranak/2012/index.html
Learning Perl, Fifth Edition
Learning the bash Shell
Linux Pocket Guide
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Prezentace z výuky 2012: http://ufal.mff.cuni.cz/~stranak/2012/index.html
Learning Perl, Fifth Edition
Learning the bash Shell
Linux Pocket Guide
Syllabus -
Last update: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
We will use large texts from the students' field of study to demonstrate the
most important methods of text processing required to acquire non-trivial
information or verify hypotheses.
An impact of large text data: properties of big data
unix shell and basic commands
more commands for text processing
text editors
searching via regular expressions
using regular expressions for text maniplation
formulation and verification of hypotheses, application on data, precission, recall
example applications: stripping diacritics, sentence segmentation, tokenisation
rule-based part of speech tagging
corpus acquisition
NLP workfow engines: GATE, OpenNLP, Treex,
automatic complex analysis of a corpus
visualisation of the analysis and results
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Na ukázkových textech většího rozsahu si ukážeme
základní metody zpracování textu potřebné pro získání netriviálních
informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla
Čapka a různá další díla v jazycích dle zaměření frekventantů.
Význam a vlastnosti velkých dat
unixový shell; nejzákladnější příkazy
další příkazy pro manipulaci s texty
textové editory
vyhledávání pomocí regulárních výrazů
využití regulárních výrazů pro úpravy textu
základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
odstranění diakritiky, segmentace na věty, tokenizace