Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Statistické metody zpracování přirozených jazyků I - ATKL00307

Anglický název:	Statistical Methods in Natural Language Processing I
Zajišťuje:	Ústav lingvistiky (21-UL)
Fakulta:	Filozofická fakulta
Platnost:	od 2025
Semestr:	zimní
Body:	6
E-Kredity:	6
Způsob provedení zkoušky:	zimní s.:
Rozsah, examinace:	zimní s.:2/2, Z+Zk [HT]
Počet míst:	neurčen / neurčen (neurčen)
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Kompetence:
Stav předmětu:	nevyučován
Jazyk výuky:	čeština
Způsob výuky:	prezenční
Úroveň:
Pro jakou fakultu:	MFF UK
Další informace:	http://www.mff.cuni.cz/vnitro/is/sis/predmety/kod.php?kod=PFL067
Poznámka:	předmět z jiné fakulty předmět je možno zapsat mimo plán povolen pro zápis po webu

Garant:	Mgr. Jan Hajič, Ph.D.

Rozvrh Nástěnka

Anotace

Cílem je seznámit posluchače se základními pojmy z formální lingvistiky
a se základy pravděpodobnostních a statistických metod pro jazykové
modelování. Pokračování tématiky lze nalézt ve Statistickém modelování
přirozených jazyků II (v LS).

Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (05.10.2012)

Literatura

Manning, C. D. and H. Schütze: Foundations of Statistical Natural Language Processing. The MIT Press. 1999. ISBN 0-262-13360-1.

Allen, J.: Natural Language Understanding. The Benajmins/Cummings Publishing Company Inc. 1994. ISBN 0-8053-0334-0.

Wall, L., Christiansen, T. and R. L. Schwartz: Programming PERL. O'Reilly. 1996. ISBN 1-56592-149-6.

Cover, T. M. and J. A. Thomas: Elements of Information Theory. Wiley. 1991. ISBN 0-471-06259-6.

Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (05.10.2012)

Sylabus

Úvod a motivace

Základní pojmy z teorie pravděpodobnosti a teorie informace

Jazykové modelování; metody vyhlazování

Základy lingvistiky: roviny popisu, morfologie, syntax (povrchová vs. hloubková)

Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.

Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).

Maximální entropie. Princip modelu a odhad parametrů pomocí Generalized Iterative Scaling. Otázky výběru pravidel (features).

Poslední úprava: Skoumalová Hana, RNDr., Ph.D. (05.10.2012)