Mimořádný význam pro konstrukci a trénování neuronových sítí i řady jiných modelů strojového učení mají
stochastické metody. Tento předmět probere do hloubky řadu typů neuronových sítí, které spočívají na náhodnosti,
jakož i řadu konkrétních stochastických metod pro neuronové sítě a strojové učení. V závěru se pak vyloží obecný
stochastický přístup k trénování neuronových sítí a ukáže, že se modely strojového učení, včetně neuronových sítí,
využívají v jedné z nejdůležitějších aplikací náhodnosti – stochastických optimalizačních metodách, k nimž patří
např. populární evoluční algoritmy.
Poslední úprava: Hric Jan, RNDr. (15.05.2025)
Stochastic methods are extremely important for the construction and training of neural networks and other
machine learning models. This course will discuss in depth a number of types of neural networks that rely on
randomness, and specific stochastic methods for neural networks and machine learning. Near the end, it
explains the general stochastic approach to training neural networks and shows that machine learning models,
including neural networks, are used in one of the most important applications of randomness – stochastic
optimization methods, which include e.g. evolutionary algorithms.
Poslední úprava: Hric Jan, RNDr. (15.05.2025)
Cíl předmětu -
Systematické objasnění souvislostí mezi stochastickými metodami a trénováním neuronových sítí či dalších modelů strojového učení. Seznámení se specifickými typy neuronových sítí, které podstatným způsobem spočívají na náhodnosti, a se stochastickými metodami pro neuronové sítě a strojové učení, o kterých se student nedozví ve výuce pravděpodobnosti a statistiky.
Poslední úprava: Hric Jan, RNDr. (15.05.2025)
Systematic clarification of the connections between stochastic methods and training of neural networks or other machine learning models. An introduction to specific types of neural networks that rely substantially on randomness and to stochastic methods for neural networks and machine learning that a student does not learn in the courses of probability and statistics.
Poslední úprava: Hric Jan, RNDr. (19.05.2025)
Sylabus -
1. Připomenutí pojmů známých z dřívějška
Umělé neuronové sítě, přenos signálů, architektura sítě. Nejznámější typy neuronových sítí. Obecné modely ve strojovém učení. Trénování modelu. Výběr modelu. Výběr příznaků. Míry kvality modelu. Interpretovatelnost a vysvětlitelnost. Učení s učitelem a bez učitele, posilované učení. Nejznámější metody učení s učitelem. Učení pravidel. Shlukování. Náhodné proměnné a náhodné procesy. Rozdělení pravděpodobnosti a momenty. Bayesovský přístup.
2. Umělé neuronové sítě založené na náhodnosti
ELM (extreme learning machine) sítě. Učení ELM sítí, optimalizační úloha pro učení ELM sítí. ELM sítě a náhodná projekce. Znáhodněné konvoluční neuronové sítě. ESN (echo state network) sítě. Vývoj aktivity v ESN sítích. ESN sítě s nepovolenými spoji. Bayesovská neuronová síť (BNN). Apriorní rozdělení pravděpodobnosti v BNN. Predikce a odhady v BNN. BNN se stochastickou aktivací, BNN s omezenou stochasticitou, hierarická BNN.
3. Stochastické metody pro umělé neuronové sítě
Dropout, bernoulliovský dropout, vlastnosti bernoulliovského dropoutu. Dropout a učení sítě, dropout a regularizace. Dropout a týmy neuronových sítí. Dropout v boltzmannovských strojích a v lineární regresi. Gaussovský dropout. Stochastický gradient. Stochastická metoda největšího spádu (SGD). Předpoklady a strategie metody SGD. Aproximace aposteriorního rozdělení pravděpodobnosti, aproximace po složkách.
4. Stochastické metody pro strojové učení
Pozorovatelné a latentí proměnné. Metoda Monte Carlo markovských řetězců (MCMC). MCMC odhad aposteriorního rozdělení latentních proměnných. Algoritmus Metropolis-Hastings. Metoda variační inference (VI). VI odhad aposteriorního rozdělení latentních proměnných. Dolní VI odhad marginálního rozdělení pozorovatelných proměnných. Kombinování VI s MCMC. VI odhady v generativních modelech, hluboké Kalmanovy filtry.
5. Obecný stochastický přístup k umělým neuronovým sítím
Předpoklady obecného stochastického přístupu. Prostory náhodných vektorů. Učení založené na střední hodnotě a učení založené na náhodném výběru. Specificita učení založeného na střední hodnotě při kvadratické chybové funkci. Silný zákon velkých čísel pro učení neuronových sítí, předpoklady a tvrzení. Centrální limitní věta pro učení neuronových sítí, předpoklady a tvrzení. Souvislost s testováním nulovosti vah spojů, využití při klestění sítě.
6. Strojové učení a neuronové sítě jako podpora stochastické optimalizace
Stochastické optimalizační algoritmy, evoluční algoritmus CMA-ES (covariance matrix adaptation evolution strategy). Nevýhoda stochastické optimalizace pro black-box cílové funkce s nákladným vyhodnocováním. Náhradní modelování pro black-box optimalizaci. Volba vyhodnocování mezi black-box funkcí a modelem. Náhradní modely založené na umělých neuronových sítích, gaussovských procesech, náhodných lesech a ordinální regresi.
Poslední úprava: Hric Jan, RNDr. (15.05.2025)
1. Recalling concepts known from other courses
Artificial neural networks, signal transmission, network architecture. Best known types of neural networks. General models in machine learning. Model training. Model selection. Selection of features. Measures of model quality. Interpretability and explainability. Supervised and unsupervised learning, reinforcement learning. Best known supervised learning methods. Rules learning. Clustering. Random variables and random processes. Probability distributions and moments. Bayesian approach.
2. Artificial neural networks based on randomness
ELM (extreme learning machine) networks. Learning ELM networks, the optimization task for learning ELM networks. ELM networks and random projection. Randomized convolutional neural networks. ESN (echo state network) networks. Evolution of activity in ESN networks. ESN networks with inhibit connections. Bayesian Neural Network (BNN). A priori probability distribution in a BNN. Predictions and estimates in a BNN. BNN with stochastic activation, BNN with bounded stochasticity, hierarchical BNN.
3. Stochastic methods for artificial neural networks
Dropout, Bernoulli dropout, properties of Bernoulli dropout. Dropout and network learning, dropout and regularization. Dropout and neural network teams. Dropout in Boltzmann machines and in linear regression. Gaussian dropout. Stochastic gradient. Stochastic gradient descent (SGD). Assumptions and strategies of the SGD method. Approximation of posterior probability distribution, approximation by components.
4. Stochastic methods for machine learning
Observable and latent variables. Monte Carlo Markov chain (MCMC). MCMC estimation of the posterior distribution of latent variables. Metropolis-Hastings algorithm. Variational inference (VI). VI estimation of the posterior distribution of latent variables. Evidence lower bound. Combining VI with MCMC. VI estimates in generative models, deep Kalman filters.
5. General stochastic approach to artificial neural networks
Assumptions of the general stochastic approach. Spaces of random vectors. Mean-based learning and random-based learning. Specificity of mean-based learning under quadratic error function. Strong law of large numbers for neural network learning, assumptions and assertions. Central Limit Theorem for Learning Neural Networks, assumptions and assertions. Connection with testing the zeroness of connection weights, use in network pruning.
6. Machine learning and neural networks as support for stochastic optimization
Stochastic optimization algorithms, the evolutionary algorithm CMA-ES (covariance matrix adaptation evolution strategy). Disadvantage of stochastic optimization for black-box objective functions with costly evaluation. Surrogate modeling for black-box optimization. Choice of evaluation between black-box function and model. Surrogate models based on artificial neural networks, Gaussian processes, random forests and ordinal regression.