PředmětyPředměty(verze: 953)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Algoritmy rozpoznávání mluvené řeči - NPFX079
Anglický název: Algorithms in Speech Recognition
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Je zajišťováno předmětem: NPFL079
Garant: Mgr. Nino Peterek, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Prerekvizity : {NXXX011, NXXX012, NXXX013, NXXX070, NXXX071}
Neslučitelnost : NPFL079
Záměnnost : NPFL079
Anotace -
Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči možňujícími budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů (HMM, n-gramové a strukturované jazykové modely, FST, grafové modely, heuristické prohledávání, neuronové sítě).
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)
Podmínky zakončení předmětu -

Vypracování tří malých projektů (první dva na společné zadání, třetí jako naprogramování menší řečové aplikace s pomocí dostupných nástrojů nebo naprogramování rozšiřující funkce řečové knihovny) a ústní zkouška z probraných témat předmětu.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Literatura -

[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998

[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006

[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001

[DLA] Dong Yu, Li Deng, Automatic Speech Recognition A Deep Learning Approach, Springer, 2015

[KLW] U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019

Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.05.2022)
Požadavky ke zkoušce -

Zkouška probíhá ústní formou a pokrývá v hodinách probraná témata.

Zápočet není nutnou podmínkou k účasti u zkoušky.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Sylabus -

Přehled řečových technologií

 • nesamozřejmosti hlasové komunikace,
 • hlavní aplikace oboru a jejich architektura,
 • použité teorie a modely,
 • programátorské nástroje a knihovny,
 • knihy a časopisy řečových technologií.

Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3 | DLA C3+C6, částečně opakování z NPFL038)

 • struktura a parametry skrytých Markovových modelů(HMM),
 • vyhodnocení skóre promluvy (Viterbi algoritmus),
 • trénování parametrů HMM (Baum-Welch a Viterbi algoritmus),
 • získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),
 • adaptace modelů na mluvčího (MAP, MLLR),
 • míra důvěryhodnosti rozpoznávání (confidence measure),
 • softwarové nástroje rozpoznávání mluvené řeči (Kaldi).

Modelování jazyka (NPFL067 | JEL C4 | SPO C11 | PSU 5.4)

 • metody statistického modelování jazyka,
 • n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,
 • strukturované jazykové modely (PCFG),
 • odlišnosti modelování mluveného a psaného jazyka,
 • transducery a softwarové nástroje jazykového modelování (Kaldi).

Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)

 • prohledávací algoritmy řeči (stavové prostory a heuristiky),
 • kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),
 • časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),
 • stavově synchronní prohledáván.

Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)

 • efektivní manipulace lexikálního stromu,
 • seznam N-nejlepších hypotéz a víceprůchodová strategie.

Hlasové dialogové systémy (SPO C17 | PSU C11)

 • charakteristiky spontánních dialogů,
 • prosodie a struktura dialogu,
 • sémantická representace,
 • řízení dialogu, detekce emocí,
 • Voice XML.

Identifikace řečníka (PSU C9)

 • typy systémů,
 • vybrané charakteristiky řeči pro rozpoznávání řečníka,
 • základní přístupy.

Přednáška volně navazuje na úvodní seminář NPFL038 a vhodně se doplňuje s přednáškami NPFL067, NPFL068, NPFL123.

Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.06.2019)
 
Univerzita Karlova | Informační systém UK