Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Automatické zpracování textových dat - ATKL00345

Anglický název:	Automatic Text Data Processing
Zajišťuje:	Ústav lingvistiky (21-UL)
Fakulta:	Filozofická fakulta
Platnost:	od 2025
Semestr:	letní
Body:	0
E-Kredity:	6
Způsob provedení zkoušky:	letní s.:ústní
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neurčen / neurčen (neurčen)
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Kompetence:
Stav předmětu:	nevyučován
Jazyk výuky:	čeština
Způsob výuky:	prezenční
Úroveň:
Další informace:	http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL098
Poznámka:	předmět je možno zapsat mimo plán povolen pro zápis po webu

Garant:	Mgr. Bc. Pavel Straňák, Ph.D.

Rozvrh Nástěnka

Anotace

Posluchači se seznámí se základními nástroji pro automatické
zpracování textu. Získané dovednosti by měly usnadnit samostatnou
vědeckou práci i případné další studium počítačové lingvistiky, kde se
praktické zvádnutí těchto nástojů předpokládá.

Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (01.10.2010)

Sylabus

Na ukázkových textech většího rozsahu si ukážeme

základní metody zpracování textu potřebné pro získání netriviálních

informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla

Čapka a různá další díla v jazycích dle zaměření frekventantů.

Zpracování textu jako nutný základ (nejen) komputační linvistiky

Proč používat unixový shell; nejzákladnější příkazy

další příkazy pro manipulaci s texty

textové editory

vyhledávání pomocí regulárních výrazů

využití regulárních výrazů pro úpravy textu

základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků

odstranění diakritiky, segmentace na věty, tokenizace

pravidlové automatické určení slovních druhů

Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (01.10.2010)