Statistické metody zpracování přirozených jazyků II - NPFX068
Anglický název: Statistical Methods in Natural Language Processing II
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Je zajišťováno předmětem: NPFL068
Další informace: https://ufal.mff.cuni.cz/courses/npfl067
Garant: prof. RNDr. Jan Hajič, Dr.
doc. RNDr. Pavel Pecina, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Prerekvizity : {NXXX011, NXXX012, NXXX013, NXXX038, NXXX039, NXXX040, NXXX067, NXXX069, NXXX070, NXXX071}
Korekvizity : NPFL067
Neslučitelnost : NPFL068
Záměnnost : NPFL068
Výsledky anket   Termíny zkoušek   Rozvrh LS   Nástěnka   
Anotace -
Poslední úprava: T_UFAL (13.05.2014)
Přednáška navazuje na Statistické metody zpracování přirozených jazyků I. Seznámí posluchače s pokročilejšími úlohami statistického zpracování přirozeného jazyka (diskriminativní a generativní modely, tagging, složkový a závislostní parsing), s prováděním a vyhodnocováním experimentů v úlohách zpracování přirozeného jazyka obecně, a s používáním a budováním korpusů pro účely statistického zpracování jazyka.
Podmínky zakončení předmětu -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)

Odevzdání jednoho úkolu (50 % známky), absolvování písemné zkoušky (50 %). Zápočet není podmínka konání zkoušky. Podmínkou udělení zápočtu je odevzdat úkol s nenulovým ohodnocením. Úkoly lze odevzdat opakovaně nejvýše dvakrát (celkem třikrát) do termínu uvedeného na webových stránkách předmětu; každý další den do 10 dnů po termínu se odečítá 5 bodů z hodnocení. Odevzdání po deseti dnech po termínu znamená redukci bodů o 50.

Literatura -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)

Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.

Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.

Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.

Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.

McDonald, R. et al.: Non-projective dependency parsing using spanning tree algorithms. 2005. EMNLP conference proceedings, s. 523-530.

Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.

Sylabus -
Poslední úprava: prof. RNDr. Jan Hajič, Dr. (02.03.2021)

Úvod a motivace, opakování

Vyhodnocování experimentů. Základní pojmy: recall, precision, accuracy, F-measure. Trénovací vs. testovací data. Použití křížové entropie a perplexity pro vyhodnocování v případech modelů částí systémů.

Značkování (diskrétní klasifikace). Typické případy: morfologické značkování. Algoritmy morfologické analýzy a syntézy. Metody značkování vč. nestatistických. Statistické značkování: transformation-based learning (TBL), značkování pomocí skrytých Markovových modelů, a značkování pomocí "feature-based" systemů a metody maximální entropie.

Syntaktická analýza (parsing). Statistické vs. nestatistické metody. Shift-reduce parsing pomocí tabulek. Pravděpodobnostní bezkontextové gramatiky (PCFG) a modely na nich založené. Odhad parametrů PCFG. Závislostní parsing.

Přehled metod statistického strojového překladu.