PředmětyPředměty(verze: 861)
Předmět, akademický rok 2019/2020
  
Neřízené strojové učení v NLP - NPFL097
Anglický název: Unsupervised machine learning in NLP
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019 do 2019
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:1/1 Z [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl097
Garant: RNDr. David Mareček, Ph.D.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.04.2019)
Cílem přednášky je seznámit studenty se základními metodami neřízeného strojového učení (učení bez učitele) a s jejich aplikací ve zpracování přirozeného jazyka. Mezi probírané metody bude patřit Bayesovská inference, Expectation-Maximization, shluková analýza, metody využívající neuronové sítě a další aktuálně používané metody. Cvičení je zaměřeno na konkrétní implementace těchto metod na vybraných úlohách.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. David Mareček, Ph.D. (24.04.2019)

Pro udělení zápočtu je třeba naimplementovat a včas odevzdat (zpravidla dvě) zadané úlohy. Chybějící body lze získat za přednesený referát týkající se nějaké metody nebo úlohy strojového učení v NLP.

Literatura -
Poslední úprava: RNDr. David Mareček, Ph.D. (24.04.2019)

Christopher Bishop: Pattern Recognition and Machine Learning, Springer-Verlag New York, 2006

Kevin P. Murphy: Machine Learning: A Probabilistic Perspective, The MIT Press, Cambridge, Massachusetts, 2012

Kar Wi Lim, Wray Buntine, Changyou Chen, Lan Du: Nonparametric Bayesian topic modelling with the hierarchical Pitman-Yor processes, International Journal of Approximate Reasoning 78, Elsevier, 2016

Kevin Knight: Bayesian Inference with Tears, 2009, http://www.isi.edu/natural-language/people/bayes-with-tears.pdf

Sylabus -
Poslední úprava: RNDr. David Mareček, Ph.D. (24.04.2019)

1. Úvod

2. Beta-Bernouli and Dirichlet-Categorial models

3. Modeling document collections, Categorical Mixture models, Expectation-Maximization

4. Gibbs Sampling, Latent Dirichlet allocation

5. Neřízená segmentace textu

6. Neřízený tagging, neřízená závistlotsní analýza

7. K-means, Mixture of Gaussians, Hierarchical clustering

9. Lingvistická interpretace neuronových sítí

 
Univerzita Karlova | Informační systém UK