Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Algoritmy rozpoznávání mluvené řeči - NPFL079

Anglický název:	Algorithms in Speech Recognition
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2020
Semestr:	letní
E-Kredity:	5
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Další informace:	https://ufal.mff.cuni.cz/courses/npfl079

Garant:	Mgr. Nino Peterek, Ph.D.
Vyučující:	Mgr. Nino Peterek, Ph.D.
Třída:	DS, matematická lingvistika Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Počítačová a formální lingvistika
Je neslučitelnost pro:	NPFX079
Je záměnnost pro:	NPFX079

Výsledky anket Termíny zkoušek Rozvrh LS Nástěnka

Anotace -

Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči možňujícími budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů (HMM, n-gramové a strukturované jazykové modely, FST, grafové modely, heuristické prohledávání, neuronové sítě).

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.04.2019)

Podmínky zakončení předmětu -

Naprogramování menší řečové aplikace s pomocí dostupných nástrojů a ústní zkouška z probraných témat předmětu.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (23.05.2025)

Literatura -

[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998

[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006

[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001

[DLA] Dong Yu, Li Deng, Automatic Speech Recognition A Deep Learning Approach, Springer, 2015

[KLW] U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019

Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.05.2022)

Požadavky ke zkoušce -

Zkouška probíhá ústní formou a pokrývá v hodinách probraná témata.

Zápočet není nutnou podmínkou k účasti u zkoušky.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)

Sylabus -

Přehled řečových technologií

nesamozřejmosti hlasové komunikace,

hlavní aplikace oboru a jejich architektura,

použité teorie a modely,

programátorské nástroje a knihovny,

knihy a časopisy řečových technologií.

Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3 | DLA C3+C6, částečně opakování z NPFL038)

struktura a parametry skrytých Markovových modelů(HMM),

vyhodnocení skóre promluvy (Viterbi algoritmus),

trénování parametrů HMM (Baum-Welch a Viterbi algoritmus),

získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),

adaptace modelů na mluvčího (MAP, MLLR),

míra důvěryhodnosti rozpoznávání (confidence measure),

softwarové nástroje rozpoznávání mluvené řeči (Kaldi).

Modelování jazyka (NPFL067 | JEL C4 | SPO C11 | PSU 5.4)

metody statistického modelování jazyka,

n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,

strukturované jazykové modely (PCFG),

odlišnosti modelování mluveného a psaného jazyka,

transducery a softwarové nástroje jazykového modelování (Kaldi).

Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)

prohledávací algoritmy řeči (stavové prostory a heuristiky),

kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),

časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),

stavově synchronní prohledáván.

Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)

efektivní manipulace lexikálního stromu,

seznam N-nejlepších hypotéz a víceprůchodová strategie.

Hlasové dialogové systémy (SPO C17 | PSU C11)

charakteristiky spontánních dialogů,

prosodie a struktura dialogu,

sémantická representace,

řízení dialogu, detekce emocí,

Voice XML.

Identifikace řečníka (PSU C9)

typy systémů,

vybrané charakteristiky řeči pro rozpoznávání řečníka,

základní přístupy.

Přednáška volně navazuje na úvodní seminář NPFL038 a vhodně se doplňuje s přednáškami NPFL067, NPFL068, NPFL123.

Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.06.2019)