Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Základy rozpoznávání a generování mluvené řeči - NPFL038

Anglický název:	Fundamentals of Speech Recognition and Generation
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2020
Semestr:	zimní
E-Kredity:	5
Rozsah, examinace:	zimní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Další informace:	https://ufal.mff.cuni.cz/courses/npfl038

Garant:	Mgr. Nino Peterek, Ph.D.
Vyučující:	Mgr. Nino Peterek, Ph.D.
Třída:	DS, matematická lingvistika Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Počítačová a formální lingvistika
Je neslučitelnost pro:	NPFX038
Je záměnnost pro:	NPFX038

Výsledky anket Termíny zkoušek Rozvrh ZS Nástěnka

Anotace -

Tato přednáška se zabývá rozpoznáváním řeči, generováním řeči, extrakcí hlasových rysů a modelováním charakteristik výslovnosti. Zvláštní pozornost je věnována Skrytým Markovovým modelům použitým na řeč (FFT, n-dimenzionální klastrování, extrakci hodnot parametrů z dat, fonetické reprezentaci, prozodické analýze apod.) a jejich DNN-HMM hybridním modelům. Součástí cvičení je natrénování vlastních modelů rozpoznávání a generování řeči.

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2022)

Podmínky zakončení předmětu -

Absolvování ústní zkoušky a zápočet.

Udělení zápočtu je vázáno na přípravu a předvedení vlastních modelů rozpoznávání a generování mluvené řeči.

Zápočet lze opakovat.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)

Literatura -

Gernot A. Fink, Markov Models for Pattern Recognition, Springer, 2014

Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland, Cambridge, The HTK Book, Entropic Ltd. http://htk.eng.cam.ac.uk, 1995-2007

Zdena Palková, Fonetika a fonologie češtiny, Karolinum, Praha, 1997

Dong Yu,Li Deng, Automatic Speech Recognition A Deep Learning Approach, 2015

U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019

NPFL038 Detaily a novinky

Poslední úprava: Peterek Nino, Mgr., Ph.D. (23.05.2025)

Požadavky ke zkoušce -

Zkouška probíhá ústní formou a pokrývá teoretickou část předmětu (sylabu).

Zápočet není nutnou podmínkou k účasti u zkoušky.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (13.10.2017)

Sylabus -

Počítačové zpracování zvuku.

Úvod do produkce a vnímání řeči.

Vektorová kvantizace a GM (Gauss. Mixtures).

HMM řečové modely - HMM vyhodnocení, Viterbi dekódování, Viterbi trénování.

Transducery.

HMM řečová syntéza (HMM TTS).

DNN řečová syntéza (DNN TTS).

DNN-HMM hybridní systémy řečového rozpoznávání.

Pozvánka do kurzu NPFL079 s pokročilými metodami zpracování řeči (End-To-End DNN modely).

Praktická část:

Popis softwarového nářadí HTK

moduly pro přípravu dat,

moduly pro trénování, rozpoznávání a testování.

Příprava dat

gramatika úlohy,

jazykový model,

fonetický slovník,

nahrání dat, jejich přepis a kódování.

Vytvoření HMM monofonémů

vytvoření startovních modelů bez znalosti časových hranic fonémů,

ošetření modelu ticha,

automatické doladění přepisů.

Vytvoření HMM trifonémů

převod monofonému na trifonémy,

trifonémové sdílení stavů pomocí rozhodovacích stromů,

zjemnění pravděpodobnostních funkcí.

Metody vyhodnocení úspešnosti rozpoznávače.

Analýza prosodie mluvené řeči.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (24.05.2025)