SubjectsSubjects(version: 945)
Course, academic year 2023/2024
   Login via CAS
Statistical Methods in Natural Language Processing II - ATKL00308
Title: Statistické metody zpracování přirozených jazyků II
Guaranteed by: Institute of the Czech National Corpus (21-UCNK)
Faculty: Faculty of Arts
Actual: from 2023
Semester: summer
Points: 6
E-Credits: 6
Examination process: summer s.:
Hours per week, examination: summer s.:2/2, C+Ex [HT]
Capacity: unlimited / unlimited (unknown)
Min. number of students: unlimited
4EU+: no
Virtual mobility / capacity: no
Key competences:  
State of the course: taught
Language: Czech
Teaching methods: full-time
Teaching methods: full-time
Level:  
For which faculty: MFF UK
Additional information: http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL068
Note: course taught by another faculty
course can be enrolled in outside the study plan
enabled for web enrollment
Guarantor: Mgr. Jan Hajič, Ph.D.
Teacher(s): Mgr. Jan Hajič, Ph.D.
Annotation - Czech
Last update: RNDr. Hana Skoumalová, Ph.D. (05.10.2012)
Přednáška navazuje na Statistické metody zpracování přirozených jazyků I.
Seznámí posluchače s pokročilejšími úlohami statistického zpracování
přirozeného jazyka (tagging, parsing), s prováděním a vyhodnocováním
experimentů v úlohách zpracování přirozeného jazyka obecně, a s používáním
a budováním korpusů pro účely statistického zpracování jazyka. Obsahem
přednášky je i krátký úvod do problematiky statistického strojového překladu.
Literature - Czech
Last update: RNDr. Hana Skoumalová, Ph.D. (05.10.2012)

Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.

Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.

Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.

Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.

Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.

Syllabus - Czech
Last update: RNDr. Hana Skoumalová, Ph.D. (05.10.2012)

Úvod a motivace, opakování

Vyhodnocování experimentů. Základní pojmy: recall, precision, accuracy, F-measure. Trénovací vs. testovací data. Použití křížové entropie a perplexity pro vyhodnocování v případech modelů částí systémů.

Značkování (diskrétní klasifikace). Typické případy: morfologické značkování. Algoritmy morfologické analýzy a syntézy. Metody značkování vč. nestatistických. Statistické značkování: transformation-based learning (TBL), značkování pomocí skrytých Markovových modelů, a značkování pomocí "feature-based" systemů a metody maximální entropie.

Syntaktická analýza (parsing). Statistické vs. nestatistické metody. Shift-reduce parsing pomocí tabulek. Pravděpodobnostní bezkontextové gramatiky (PCFG) a modely na nich založené. Odhad parametrů PCFG.

Přehled metod statistického strojového překladu.

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html