|
|
|
||
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)
|
|
||
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)
Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >70% bodů z těchto úkolů. |
|
||
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)
Prezentace z výuky: http://ufal.mff.cuni.cz/courses/NPFL131
Perl pro zelenáče – 3. vydání z https://knihy.nic.cz Learning Perl, 8th Edition (nejméně 5th Edition) Pro Git z https://knihy.nic.cz Learning the bash Shell Linux Pocket Guide |
|
||
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)
Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.
Význam a vlastnosti velkých dat unixový shell; nejzákladnější příkazy další unixové příkazy a základy Perlu pro manipulaci s texty textové editory kvantitativní analýza textu porovnání textů a vizualizace rozdílů vyhledávání pomocí regulárních výrazů využití regulárních výrazů pro hromadné úpravy textu odstranění diakritiky, segmentace na věty, tokenizace získávání informací o čínských znacích z databáze Unihan pravidlové automatické určení slovních druhů vytvoření vlastního korpusu "NLP workflow engines" - GATE, OpenNLP, Treex volání REST API UDPipe a výběr vhodného modelu, je-li jich pro jazyk více vizualizace analýzy a výsledků |