PředmětyPředměty(verze: 809)
Předmět, akademický rok 2017/2018
   Přihlásit přes CAS
Statistické metody zpracování přirozených jazyků II - ATKL00308
Anglický název: Statistical Methods in Natural Language Processing II
Zajišťuje: Ústav teoretické a komputační lingvistiky (21-UTKL)
Fakulta: Filozofická fakulta
Platnost: od 2008
Semestr: letní
Body: 6
E-Kredity: 6
Způsob provedení zkoušky: letní s.:
Rozsah, examinace: letní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Úroveň:  
Pro jakou fakultu: MFF UK
Další informace: http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL068
Poznámka: předmět z jiné fakulty
předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: Mgr. Jan Hajič
Rozvrh   Nástěnka   
Anotace
Poslední úprava: RNDr. Hana Skoumalová, Ph.D. (05.10.2012)

Přednáška navazuje na Statistické metody zpracování přirozených jazyků I.
Seznámí posluchače s pokročilejšími úlohami statistického zpracování
přirozeného jazyka (tagging, parsing), s prováděním a vyhodnocováním
experimentů v úlohách zpracování přirozeného jazyka obecně, a s používáním
a budováním korpusů pro účely statistického zpracování jazyka. Obsahem
přednášky je i krátký úvod do problematiky statistického strojového překladu.
Literatura
Poslední úprava: RNDr. Hana Skoumalová, Ph.D. (05.10.2012)

Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing . The MIT Press. 1999. ISBN 0-262-13360-1.

Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.

Charniak, E.: Statistical Language Learning. The MIT Press. 1996. ISBN 0-262-53141-0.

Jelinek, F.: Statistical Methods for Speech Recognition. The MIT Press. 1998. ISBN 0-262-10066-5.

Sborníky z hlavních světových konferencí: ACL (vč. EMNLP/CoNLL), COLING.

Sylabus
Poslední úprava: RNDr. Hana Skoumalová, Ph.D. (05.10.2012)

Úvod a motivace, opakování

Vyhodnocování experimentů. Základní pojmy: recall, precision, accuracy, F-measure. Trénovací vs. testovací data. Použití křížové entropie a perplexity pro vyhodnocování v případech modelů částí systémů.

Značkování (diskrétní klasifikace). Typické případy: morfologické značkování. Algoritmy morfologické analýzy a syntézy. Metody značkování vč. nestatistických. Statistické značkování: transformation-based learning (TBL), značkování pomocí skrytých Markovových modelů, a značkování pomocí "feature-based" systemů a metody maximální entropie.

Syntaktická analýza (parsing). Statistické vs. nestatistické metody. Shift-reduce parsing pomocí tabulek. Pravděpodobnostní bezkontextové gramatiky (PCFG) a modely na nich založené. Odhad parametrů PCFG.

Přehled metod statistického strojového překladu.

 
Univerzita Karlova | Informační systém UK