Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů. Získané dovednosti by měly usnadnit samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
An introductory course for automatic text processing using the most common and
efficient tools and methods. The skills acquired during the course will benefit any
scientific work that involves large texts and they are also required for serious study of
computational linguistics.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Ústní zkouška.
Podmínkou připuštění ke zkoušce je získání zápočtu.
Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >50% bodů z těchto úkolů.
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Verbal exam.
Precondition to the exam is completing a course credit.
Course credit is composed of: attendence and activity in class, submitting all homeworks, and achieving >50% points for the homeworks.
Literatura -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Prezentace z výuky: http://ufal.mff.cuni.cz/courses/npfl098
Perl pro zelenáče – 3. vydání z https://knihy.nic.cz
Learning Perl, 7th Edition (nejméně 5th Edition)
Pro Git z https://knihy.nic.cz
Learning the bash Shell
Linux Pocket Guide
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
http://ufal.mff.cuni.cz/courses/npfl098
Learning Perl, 7th Edition (or at least 5th)
Learning the bash Shell
Linux Pocket Guide
Požadavky ke zkoušce -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Zkouší se z obsahu vyloženého na přednáškách.
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Exams test knowledge of the content explained in the lectures.
Sylabus -
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.06.2019)
Na ukázkových textech většího rozsahu si ukážeme
základní metody zpracování textu potřebné pro získání netriviálních
informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla
Čapka a různá další díla v jazycích dle zaměření frekventantů.
Význam a vlastnosti velkých dat
unixový shell; nejzákladnější příkazy
další příkazy pro manipulaci s texty
textové editory
vyhledávání pomocí regulárních výrazů
využití regulárních výrazů pro úpravy textu
základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
odstranění diakritiky, segmentace na věty, tokenizace
pravidlové automatické určení slovních druhů
vytvoření vlastního korpusu
"NLP workflow engines" - GATE, OpenNLP, Treex
automatická komplexní analýza korpusu
vizualizace analýzy a výsledků
Poslední úprava: Mgr. Pavel Straňák, Ph.D. (10.05.2013)
We will use large texts from the students' field of study to demonstrate the
most important methods of text processing required to acquire non-trivial
information or verify hypotheses.
An impact of large text data: properties of big data
unix shell and basic commands
more commands for text processing
text editors
searching via regular expressions
using regular expressions for text maniplation
formulation and verification of hypotheses, application on data, precission, recall
example applications: stripping diacritics, sentence segmentation, tokenisation