PředmětyPředměty(verze: 953)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Statistické metody zpracování přirozených jazyků I - NPFX067
Anglický název: Statistical Methods in Natural Language Processing I
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2021
Semestr: zimní
E-Kredity: 6
Rozsah, examinace: zimní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Je zajišťováno předmětem: NPFL067
Další informace: https://ufal.mff.cuni.cz/courses/npfl067
Garant: prof. RNDr. Jan Hajič, Dr.
doc. RNDr. Pavel Pecina, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Prerekvizity : {NXXX011, NXXX012, NXXX013, NXXX038, NXXX039, NXXX040, NXXX067, NXXX069, NXXX070, NXXX071}
Neslučitelnost : NPFL067
Záměnnost : NPFL067
Anotace -
Cílem je seznámit posluchače se základními pojmy z formální lingvistiky a se základy pravděpodobnostních a statistických metod pro jazykové modelování. Pokračování tématiky lze nalézt ve Statistickém modelování přirozených jazyků II (v LS).
Poslední úprava: T_UFAL (20.05.2004)
Podmínky zakončení předmětu -

Odevzdání úkolů (66,7 %), absolvování písemné zkoušky (33,3 %). Zápočet není podmínka konání zkoušky. Podmínkou udělení zápočtu je získat z úkolů alespoň 80 bodů ze 200. Úkol lze odevzdat opakovaně nejvýše dvakrát (celkem třikrát) do termínu uvedeného na webových stránkách předmětu; každý další den do 10 dnů po termínu se odečítá 5 bodů z hodnocení. Odevzdání po deseti dnech po termínu znamená redukci bodů o 50.

Poslední úprava: Hajič Jan, prof. RNDr., Dr. (28.09.2020)
Literatura -

Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing. The MIT Press. 1999. ISBN 0-262-13360-1.

Jurafsky, D. and J. Martin: Speech and Language Processing. Prentice Hall. Any edition (1st: 2000).

Cover, T. M. and J. A. Thomas: Elements of Information Theory. Wiley. 1991. ISBN 0-471-06259-6.

Poslední úprava: Hajič Jan, prof. RNDr., Dr. (28.09.2020)
Požadavky ke zkoušce -

Zkouška je písemná a skládá se z 4-5 otázek, z nichž každá má podotázky. Rozsah zkoušky odpovídá sylabu, tj. odpřednesené látce. Zkouška trvá 60 minut čistého času a je dovoleno mít k ruce učebnici nebo kopie slajdů k přednášce nebo používat internet, je možno mít kalkulátor. Zkouška je hodnocena 0-100 body. Váha zkoušky pro celkové hodnocení je 33,3 %. Zkouška může být provedena v online režimu.

Poslední úprava: Hajič Jan, prof. RNDr., Dr. (28.09.2020)
Sylabus -

Úvod a motivace

Základní pojmy z teorie pravděpodobnosti a teorie informace

Jazykové modelování; metody vyhlazování

Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.

Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).

Poslední úprava: Hajič Jan, prof. RNDr., Dr. (28.09.2020)
 
Univerzita Karlova | Informační systém UK