PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Automatické zpracování textových dat - ATKL00345
Anglický název: Automatic Text Data Processing
Zajišťuje: Ústav českého národního korpusu (21-UCNK)
Fakulta: Filozofická fakulta
Platnost: od 2023
Semestr: letní
Body: 0
E-Kredity: 6
Způsob provedení zkoušky: letní s.:ústní
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Kompetence:  
Stav předmětu: nevyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Další informace: http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL098
Poznámka: předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: Mgr. Pavel Straňák, Ph.D.
Rozvrh   Nástěnka   
Anotace
Poslední úprava: RNDr. Hana Skoumalová, Ph.D. (01.10.2010)
Posluchači se seznámí se základními nástroji pro automatické
zpracování textu. Získané dovednosti by měly usnadnit samostatnou
vědeckou práci i případné další studium počítačové lingvistiky, kde se
praktické zvádnutí těchto nástojů předpokládá.

Sylabus
Poslední úprava: RNDr. Hana Skoumalová, Ph.D. (01.10.2010)

Na ukázkových textech většího rozsahu si ukážeme

základní metody zpracování textu potřebné pro získání netriviálních

informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla

Čapka a různá další díla v jazycích dle zaměření frekventantů.

  • Zpracování textu jako nutný základ (nejen) komputační linvistiky
  • Proč používat unixový shell; nejzákladnější příkazy
  • další příkazy pro manipulaci s texty
  • textové editory
  • vyhledávání pomocí regulárních výrazů
  • využití regulárních výrazů pro úpravy textu
  • základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
  • odstranění diakritiky, segmentace na věty, tokenizace
  • pravidlové automatické určení slovních druhů

 
Univerzita Karlova | Informační systém UK