On Saturday 19th October 2024 there will be a shutdown of some components of the information system. Especially the work with files in Thesis modules will be particularly unavailable. Please postpone your requests for a later time.
The course presents recent methodologies and software toolkits for speech recognition. Students will learn how to
develop systems of automatic speech recognition and transcription, computer dialogue systems and speaker
identification. The course shows principles, preparation and decoding algorithms of statistical acoustic and
language models (HMM, n-gram and structured language models, final state transducers, graphical models,
Viterbi dynamic programming, heuristic hypothesis search strategies, stack decoder, neural networks).
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)
Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči možňujícími
budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou
identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů
(HMM, n-gramové a strukturované jazykové modely, FST, grafové modely, heuristické prohledávání, neuronové
sítě).
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)
Course completion requirements -
For successful completion of course programming of three small projects necessary (speech library functions and a small speech application) and oral exam.
Last update: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Vypracování tří malých projektů (první dva na společné zadání, třetí jako naprogramování menší řečové aplikace s pomocí dostupných nástrojů nebo naprogramování rozšiřující funkce řečové knihovny) a ústní zkouška z probraných témat předmětu.
Last update: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Literature -
[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998
[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006
[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001
[DLA] Dong Yu,Li Deng, Automatic Speech Recognition A Deep Learning Approach, Springer, 2015
[KLW] U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019
Last update: Peterek Nino, Mgr., Ph.D. (11.05.2022)
[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998
[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006
[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001
[DLA] Dong Yu, Li Deng, Automatic Speech Recognition A Deep Learning Approach, Springer, 2015
[KLW] U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019
Last update: Peterek Nino, Mgr., Ph.D. (11.05.2022)
Requirements to the exam -
Exam covers presented themes, there is only oral exam.
Finalisation of practical part is not necessary before the exam.
Last update: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Zkouška probíhá ústní formou a pokrývá v hodinách probraná témata.
Zápočet není nutnou podmínkou k účasti u zkoušky.
Last update: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Syllabus -
Overview of speech technologies
wonders of speech recognition,
main applications and their architectures,
theories and models overview,
software toolkits and libraries,
speech processing books and magazines.
Acoustic Modelling (SPO C8-C9 | JEL C2-C3 | PSU C5.3 | DLA C3+C6, partially repetition of NPFL038)
definition and parameters of the hidden Markov model (HMM),
evaluation of an HMM (Forward algorithm),
training of an HMM (Baum-Welch algorithm),
extracting features of speech, scoring acoustic features (MFCC, Gaussians mixtures, parameters clustering),