Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči možňujícími
budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou
identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů
(HMM, n-gramové a strukturované jazykové modely, FST, grafové modely, heuristické prohledávání, neuronové
sítě).
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)
The course presents recent methodologies and software toolkits for speech recognition. Students will learn how to
develop systems of automatic speech recognition and transcription, computer dialogue systems and speaker
identification. The course shows principles, preparation and decoding algorithms of statistical acoustic and
language models (HMM, n-gram and structured language models, final state transducers, graphical models,
Viterbi dynamic programming, heuristic hypothesis search strategies, stack decoder, neural networks).
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)
Podmínky zakončení předmětu -
Vypracování tří malých projektů (první dva na společné zadání, třetí jako naprogramování menší řečové aplikace s pomocí dostupných nástrojů nebo naprogramování rozšiřující funkce řečové knihovny) a ústní zkouška z probraných témat předmětu.
Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
For successful completion of course programming of three small projects necessary (speech library functions and a small speech application) and oral exam.
Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Literatura -
[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998
[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006
[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001
[DLA] Dong Yu, Li Deng, Automatic Speech Recognition A Deep Learning Approach, Springer, 2015
[KLW] U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019
Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.05.2022)
[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998
[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006
[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001
[DLA] Dong Yu,Li Deng, Automatic Speech Recognition A Deep Learning Approach, Springer, 2015
[KLW] U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019
Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.05.2022)
Požadavky ke zkoušce -
Zkouška probíhá ústní formou a pokrývá v hodinách probraná témata.
Zápočet není nutnou podmínkou k účasti u zkoušky.
Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Exam covers presented themes, there is only oral exam.
Finalisation of practical part is not necessary before the exam.
Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Sylabus -
Přehled řečových technologií
nesamozřejmosti hlasové komunikace,
hlavní aplikace oboru a jejich architektura,
použité teorie a modely,
programátorské nástroje a knihovny,
knihy a časopisy řečových technologií.
Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3 | DLA C3+C6, částečně opakování z NPFL038)
struktura a parametry skrytých Markovových modelů(HMM),
vyhodnocení skóre promluvy (Viterbi algoritmus),
trénování parametrů HMM (Baum-Welch a Viterbi algoritmus),