PředmětyPředměty(verze: 964)
Předmět, akademický rok 2024/2025
   Přihlásit přes CAS
Neřízené strojové učení v NLP - NPFL097
Anglický název: Unsupervised Machine Learning in NLP
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: zimní
E-Kredity: 3
Rozsah, examinace: zimní s.:1/1, Z [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl097
Garant: RNDr. David Mareček, Ph.D.
Vyučující: RNDr. David Mareček, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Cílem přednášky je seznámit studenty se základními metodami neřízeného strojového učení (učení bez učitele) a s jejich aplikací ve zpracování přirozeného jazyka. Mezi probírané metody bude patřit Bayesovská inference, Expectation-Maximization, shluková analýza, metody využívající neuronové sítě a další aktuálně používané metody. Cvičení je zaměřeno na konkrétní implementace těchto metod na vybraných úlohách.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)
Podmínky zakončení předmětu -

Pro udělení zápočtu je třeba naimplementovat a včas odevzdat (zpravidla tři) zadané úlohy. Chybějící body lze získat v závěrečném testu.

Poslední úprava: Mareček David, RNDr., Ph.D. (05.05.2022)
Literatura -

Christopher Bishop: Pattern Recognition and Machine Learning, Springer-Verlag New York, 2006

Kevin P. Murphy: Machine Learning: A Probabilistic Perspective, The MIT Press, Cambridge, Massachusetts, 2012

Kar Wi Lim, Wray Buntine, Changyou Chen, Lan Du: Nonparametric Bayesian topic modelling with the hierarchical Pitman-Yor processes, International Journal of Approximate Reasoning 78, Elsevier, 2016

Kevin Knight: Bayesian Inference with Tears, 2009, http://www.isi.edu/natural-language/people/bayes-with-tears.pdf

Poslední úprava: Mareček David, RNDr., Ph.D. (24.04.2019)
Sylabus -

1. Úvod

2. Model Beta-Bernoulli a Dirichlet-Categorial

3. Modelování kolekcí dokumentů, Categorical Mixture models, Expectation-Maximization

4. Gibbs Sampling, Latent Dirichlet Allocation

5. Neřízená segmentace textu

6. Neřízený tagging, word alignment, neřízená závistlotsní analýza

7. K-means, Mixture of Gaussians, Hierarchical clustering, evaluace

8. T-SNE, Principal Component Analysis, Independent Component Analysis

9. Lingvistická interpretace neuronových sítí

Poslední úprava: Mareček David, RNDr., Ph.D. (05.05.2022)
 
Univerzita Karlova | Informační systém UK