Last update: Mgr. Nino Peterek, Ph.D. (11.06.2019)
Overview of speech technologies
- wonders of speech recognition,
- main applications and their architectures,
- theories and models overview,
- software toolkits and libraries,
- speech processing books and magazines.
Acoustic Modelling (SPO C8-C9 | JEL C2-C3 | PSU C5.3, partially repetition of PFL038)
- definition and parameters of the hidden Markov model (HMM),
- evaluation of an HMM (Forward algorithm),
- training of an HMM (Baum-Welch algorithm),
- extracting features of speech, scoring acoustic features (MFCC, Gaussians mixtures, parameters clustering),
- adaptive techniques (MAP, MLLR),
- software toolkits for speech recognition (HTK Tools, EST).
Language Modelling (PFL067 | JEL C4 | SPO C11 | PSU 5.4)
- methods of language modelling,
- n-gram models, smoothing (Good-Turing, Katz), adaptive language models,
- structured language models (PCFG),
- specifics of spoken and writen language modelling,
- transducers and software tools for language modelling (AT&T FSM Library, SRI LM Toolkit).
Basic decoding techniques (SPO C12 | JEL C5-C6 | PSU C6)
- search algorithms (search space and heuristics, A*),
- combining acoustic and language models (uni-, bi-, trigrams),
- time-synchronous search (Viterbi, beam, tree lexicon),
- state-synchronous search,
- graphical models (GMTK: The Graphical Models Toolkit).
Large vocabulary search algorithms (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)
- efficient manipulation of tree lexicon,
- N-best and multipass search strategies,
- AT&T GRM Library, AT&T DCD Library.
Automatic dialogue systems (SPO C17 | PSU C11)
- characteristics of spontaneous dialogues,
- prosody and structure of dialogues,
- dialogue management, emotion detection,
Speaker identification (PSU C9)
- identification systems overview,
- selected speech features for speaker identification,
The software tools and libraries will be introduced and trained in the practical part of course.
Last update: Mgr. Nino Peterek, Ph.D. (11.06.2019)
Přehled řečových technologií
- nesamozřejmosti hlasové komunikace,
- hlavní aplikace oboru a jejich architektura,
- programátorské nástroje a knihovny,
- knihy a časopisy řečových technologií.
Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3, částečně opakování z PFL038)
- struktura a parametry skrytých Markovových modelů(HMM),
- vyhodnocení skóre promluvy (Viterbi algoritmus),
- trénování parametrů HMM (Baum-Welch algoritmus),
- získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),
- adaptace modelů na mluvčího (MAP, MLLR),
- míra důvěryhodnosti rozpoznávání (confidence measure),
- softwarové nástroje rozpoznávání mluvené řeči (HTK Tools, EST).
Modelování jazyka (PFL067 | JEL C4 | SPO C11 | PSU 5.4)
- metody statistického modelování jazyka,
- n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,
- strukturované jazykové modely (PCFG),
- odlišnosti modelování mluveného a psaného jazyka,
- transducery a softwarové nástroje jazykového modelování (AT&T FSM Library, SRI LM Toolkit).
Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)
- prohledávací algoritmy řeči (stavové prostory a heuristiky),
- kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),
- časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),
- stavově synchronní prohledáván,
- grafové modely (GMTK: The Graphical Models Toolkit).
Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)
- efektivní manipulace lexikálního stromu,
- seznam N-nejlepších hypotéz a víceprůchodová strategie,
- AT&T GRM Library, AT&T DCD Library.
Hlasové dialogové systémy (SPO C17 | PSU C11)
- charakteristiky spontánních dialogů,
- prosodie a struktura dialogu,
- řízení dialogu, detekce emocí,
Identifikace řečníka (PSU C9)
- vybrané charakteristiky řeči pro rozpoznávání řečníka,
Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.
|