PředmětyPředměty(verze: 908)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Neřízené strojové učení v NLP - NPFL097
Anglický název: Unsupervised Machine Learning in NLP
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: zimní
E-Kredity: 3
Rozsah, examinace: zimní s.:1/1, Z [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl097
Garant: RNDr. David Mareček, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.04.2019)
Cílem přednášky je seznámit studenty se základními metodami neřízeného strojového učení (učení bez učitele) a s jejich aplikací ve zpracování přirozeného jazyka. Mezi probírané metody bude patřit Bayesovská inference, Expectation-Maximization, shluková analýza, metody využívající neuronové sítě a další aktuálně používané metody. Cvičení je zaměřeno na konkrétní implementace těchto metod na vybraných úlohách.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. David Mareček, Ph.D. (05.05.2022)

Pro udělení zápočtu je třeba naimplementovat a včas odevzdat (zpravidla tři) zadané úlohy. Chybějící body lze získat v závěrečném testu.

Literatura -
Poslední úprava: RNDr. David Mareček, Ph.D. (24.04.2019)

Christopher Bishop: Pattern Recognition and Machine Learning, Springer-Verlag New York, 2006

Kevin P. Murphy: Machine Learning: A Probabilistic Perspective, The MIT Press, Cambridge, Massachusetts, 2012

Kar Wi Lim, Wray Buntine, Changyou Chen, Lan Du: Nonparametric Bayesian topic modelling with the hierarchical Pitman-Yor processes, International Journal of Approximate Reasoning 78, Elsevier, 2016

Kevin Knight: Bayesian Inference with Tears, 2009, http://www.isi.edu/natural-language/people/bayes-with-tears.pdf

Sylabus -
Poslední úprava: RNDr. David Mareček, Ph.D. (05.05.2022)

1. Úvod

2. Model Beta-Bernoulli a Dirichlet-Categorial

3. Modelování kolekcí dokumentů, Categorical Mixture models, Expectation-Maximization

4. Gibbs Sampling, Latent Dirichlet Allocation

5. Neřízená segmentace textu

6. Neřízený tagging, word alignment, neřízená závistlotsní analýza

7. K-means, Mixture of Gaussians, Hierarchical clustering, evaluace

8. T-SNE, Principal Component Analysis, Independent Component Analysis

9. Lingvistická interpretace neuronových sítí

 
Univerzita Karlova | Informační systém UK