PředmětyPředměty(verze: 908)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Jazykové technologie pro výzkum v humanitních oborech - NPFL131
Anglický název: Language Technologies for Research in Humanities
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: zimní
E-Kredity: 2
Rozsah, examinace: zimní s.:0/2, Z [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl131
Garant: Mgr. Pavel Straňák, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Neslučitelnost : NPFL098
Záměnnost : NPFL098
Je neslučitelnost pro: NPFL098
Je záměnnost pro: NPFL098
Anotace -
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů v různých jazycích. Získané dovednosti usnadní samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)

Podmínkou získání zápočtu je aktivní účast na výuce, odevzdání všech domácích úkolů a získání >70% bodů z těchto úkolů.

Literatura -
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)

Prezentace z výuky: http://ufal.mff.cuni.cz/courses/NPFL131

Perl pro zelenáče – 3. vydání z https://knihy.nic.cz

Learning Perl, 8th Edition (nejméně 5th Edition)

Pro Git z https://knihy.nic.cz

Learning the bash Shell

Linux Pocket Guide

Sylabus -
Poslední úprava: RNDr. Jiří Mírovský, Ph.D. (16.05.2022)

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.

Význam a vlastnosti velkých dat

unixový shell; nejzákladnější příkazy

další unixové příkazy a základy Perlu pro manipulaci s texty

textové editory

kvantitativní analýza textu

porovnání textů a vizualizace rozdílů

vyhledávání pomocí regulárních výrazů

využití regulárních výrazů pro hromadné úpravy textu

odstranění diakritiky, segmentace na věty, tokenizace

získávání informací o čínských znacích z databáze Unihan

pravidlové automatické určení slovních druhů

vytvoření vlastního korpusu

"NLP workflow engines" - GATE, OpenNLP, Treex

volání REST API

UDPipe a výběr vhodného modelu, je-li jich pro jazyk více

vizualizace analýzy a výsledků

 
Univerzita Karlova | Informační systém UK