Subjects

Last update: T_UFAL (04.05.2017)

The course presents recent methodologies and software toolkits for speech recognition. Students will learn how to develop systems of automatic speech recognition and transcription, computer dialogue systems and speaker identification. The course shows principles, preparation and decoding algorithms of statistical acoustic and language models (HMM, n-gram and structured language models, final state transducers, graphical models, Viterbi dynamic programming, heuristic hypothesis search strategies, stack decoder). This course can be preceded by PFL038 and combined with PFL067, PFL068.

Last update: T_UFAL (04.05.2017)

Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči umožňujícími budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů (HMM, n-gramové a strukturované jazykové modely, FSM, grafové modely, heuristické prohledávání). Přednáška volně navazuje na úvodní seminář PFL038 a vhodně se doplňuje s přednáškami PFL067, PFL068.

Last update: T_UFAL (05.05.2017)

[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998

[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006

[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001

PFL079 Details and News

Last update: Mgr. Nino Peterek, Ph.D. (10.06.2019)

For successful completion of course programming of three small projects necessary (speech library functions and a small speech application).

Last update: Mgr. Nino Peterek, Ph.D. (10.06.2019)

Zkouška proběhne formou vypracování malých projektů (první dva na společné zadání, třetí jako naprogramování menší řečové aplikace s pomocí dostupných nástrojů nebo naprogramování rozšiřující funkce řečové knihovny).

Last update: Mgr. Nino Peterek, Ph.D. (11.06.2019)

Overview of speech technologies

wonders of speech recognition,

main applications and their architectures,

theories and models overview,

software toolkits and libraries,

speech processing books and magazines.

Acoustic Modelling (SPO C8-C9 | JEL C2-C3 | PSU C5.3, partially repetition of PFL038)

definition and parameters of the hidden Markov model (HMM),

evaluation of an HMM (Forward algorithm),

training of an HMM (Baum-Welch algorithm),

extracting features of speech, scoring acoustic features (MFCC, Gaussians mixtures, parameters clustering),

adaptive techniques (MAP, MLLR),

confidence measures,

software toolkits for speech recognition (HTK Tools, EST).

Language Modelling (PFL067 | JEL C4 | SPO C11 | PSU 5.4)

methods of language modelling,

n-gram models, smoothing (Good-Turing, Katz), adaptive language models,

structured language models (PCFG),

specifics of spoken and writen language modelling,

transducers and software tools for language modelling (AT&T FSM Library, SRI LM Toolkit).

Basic decoding techniques (SPO C12 | JEL C5-C6 | PSU C6)

search algorithms (search space and heuristics, A*),

combining acoustic and language models (uni-, bi-, trigrams),

time-synchronous search (Viterbi, beam, tree lexicon),

state-synchronous search,

graphical models (GMTK: The Graphical Models Toolkit).

Large vocabulary search algorithms (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)

efficient manipulation of tree lexicon,

N-best and multipass search strategies,

AT&T GRM Library, AT&T DCD Library.

Automatic dialogue systems (SPO C17 | PSU C11)

characteristics of spontaneous dialogues,

prosody and structure of dialogues,

semantic representation,

dialogue management, emotion detection,

VoiceXML.

Speaker identification (PSU C9)

identification systems overview,

selected speech features for speaker identification,

basic methods.

The software tools and libraries will be introduced and trained in the practical part of course.

Last update: Mgr. Nino Peterek, Ph.D. (11.06.2019)

Přehled řečových technologií

nesamozřejmosti hlasové komunikace,

hlavní aplikace oboru a jejich architektura,

použité teorie a modely,

programátorské nástroje a knihovny,

knihy a časopisy řečových technologií.

Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3, částečně opakování z PFL038)

struktura a parametry skrytých Markovových modelů(HMM),

vyhodnocení skóre promluvy (Viterbi algoritmus),

trénování parametrů HMM (Baum-Welch algoritmus),

získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),

adaptace modelů na mluvčího (MAP, MLLR),

míra důvěryhodnosti rozpoznávání (confidence measure),

softwarové nástroje rozpoznávání mluvené řeči (HTK Tools, EST).

Modelování jazyka (PFL067 | JEL C4 | SPO C11 | PSU 5.4)

metody statistického modelování jazyka,

n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,

strukturované jazykové modely (PCFG),

odlišnosti modelování mluveného a psaného jazyka,

transducery a softwarové nástroje jazykového modelování (AT&T FSM Library, SRI LM Toolkit).

Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)

prohledávací algoritmy řeči (stavové prostory a heuristiky),

kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),

časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),

stavově synchronní prohledáván,

grafové modely (GMTK: The Graphical Models Toolkit).

Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)

efektivní manipulace lexikálního stromu,

seznam N-nejlepších hypotéz a víceprůchodová strategie,

AT&T GRM Library, AT&T DCD Library.

Hlasové dialogové systémy (SPO C17 | PSU C11)

charakteristiky spontánních dialogů,

prosodie a struktura dialogu,

sémantická representace,

řízení dialogu, detekce emocí,

Voice XML.

Identifikace řečníka (PSU C9)

typy systémů,

vybrané charakteristiky řeči pro rozpoznávání řečníka,

základní přístupy.

Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.