PředmětyPředměty(verze: 797)
Předmět, akademický rok 2016/2017
   Přihlásit přes CAS
Statistické metody zpracování přirozených jazyků I - NPFL067
Anglický název: Statistical Methods in Natural Language Processing I
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2016
Semestr: zimní
E-Kredity: 6
Rozsah, examinace: zimní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/npfl067
Garant: prof. RNDr. Jan Hajič, Dr.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Je korekvizitou pro: NPFL068
Anotace -
Poslední úprava: T_UFAL (20.05.2004)

Cílem je seznámit posluchače se základními pojmy z formální lingvistiky a se základy pravděpodobnostních a statistických metod pro jazykové modelování. Pokračování tématiky lze nalézt ve Statistickém modelování přirozených jazyků II (v LS).
Literatura
Poslední úprava: T_UFAL (20.05.2004)

Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing. The MIT Press. 1999. ISBN 0-262-13360-1.

Allen, J.: Natural Language Understanding. The Benajmins/Cummings Publishing Company Inc. 1994. ISBN 0-8053-0334-0.

Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.

Cover, T. M. and J. A. Thomas: Elements of Information Theory. Wiley. 1991. ISBN 0-471-06259-6.

Sylabus -
Poslední úprava: T_UFAL (20.05.2004)

Úvod a motivace

Základní pojmy z teorie pravděpodobnosti a teorie informace

Jazykové modelování; metody vyhlazování

Základy lingvistiky: roviny popisu, morfologie, syntax (povrchová vs. hloubková)

Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.

Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).

Maximální entropie. Princip modelu a odhad parametrů pomocí Generalized Iterative Scaling. Otázky výběru pravidel (features).

 
Univerzita Karlova | Informační systém UK