Last update: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
An introductory course for automatic text processing using the most common and
efficient tools and methods. The skills acquired during the course will benefit any
scientific work that involves large texts and they are also required for serious study of
computational linguistics.
Last update: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů. Získané dovednosti by měly usnadnit samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Course completion requirements -
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Verbal exam.
Precondition to the exam is completing a course credit.
Course credit is composed of: attendence and activity in class, submitting all homeworks, and achieving >50% points for the homeworks.
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Ústní zkouška.
Podmínkou připuštění ke zkoušce je získání zápočtu.
Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >50% bodů z těchto úkolů.
Literature -
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
http://ufal.mff.cuni.cz/courses/npfl098
Learning Perl, 7th Edition (or at least 5th)
Learning the bash Shell
Linux Pocket Guide
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Prezentace z výuky: http://ufal.mff.cuni.cz/courses/npfl098
Perl pro zelenáče – 3. vydání z https://knihy.nic.cz
Learning Perl, 7th Edition (nejméně 5th Edition)
Pro Git z https://knihy.nic.cz
Learning the bash Shell
Linux Pocket Guide
Requirements to the exam -
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Exams test knowledge of the content explained in the lectures.
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Zkouší se z obsahu vyloženého na přednáškách.
Syllabus -
Last update: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
We will use large texts from the students' field of study to demonstrate the
most important methods of text processing required to acquire non-trivial
information or verify hypotheses.
An impact of large text data: properties of big data
unix shell and basic commands
more commands for text processing
text editors
searching via regular expressions
using regular expressions for text maniplation
formulation and verification of hypotheses, application on data, precission, recall
example applications: stripping diacritics, sentence segmentation, tokenisation
rule-based part of speech tagging
corpus acquisition
NLP workfow engines: GATE, OpenNLP, Treex,
automatic complex analysis of a corpus
visualisation of the analysis and results
Last update: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Na ukázkových textech většího rozsahu si ukážeme
základní metody zpracování textu potřebné pro získání netriviálních
informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla
Čapka a různá další díla v jazycích dle zaměření frekventantů.
Význam a vlastnosti velkých dat
unixový shell; nejzákladnější příkazy
další příkazy pro manipulaci s texty
textové editory
vyhledávání pomocí regulárních výrazů
využití regulárních výrazů pro úpravy textu
základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
odstranění diakritiky, segmentace na věty, tokenizace