PředmětyPředměty(verze: 970)
Předmět, akademický rok 2024/2025
   Přihlásit přes CAS
Základy rozpoznávání a generování mluvené řeči - NPFX038
Anglický název: Fundamentals of Speech Recognition and Generation
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: zimní
E-Kredity: 6
Rozsah, examinace: zimní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Je zajišťováno předmětem: NPFL038
Garant: Mgr. Nino Peterek, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Prerekvizity : {NXXX011, NXXX012, NXXX013, NXXX070, NXXX071}
Neslučitelnost : NPFL038
Záměnnost : NPFL038
Anotace -
Tato přednáška se zabývá rozpoznáváním řeči, generováním řeči, extrakcí hlasových rysů a modelováním charakteristik výslovnosti. Zvláštní pozornost je věnována Skrytým Markovovým modelům použitým na řeč (FFT, n-dimenzionální klastrování, extrakci hodnot parametrů z dat, fonetické reprezentaci, prozodické analýze apod.) a jejich DNN-HMM hybridním modelům. Součástí cvičení je natrénování vlastních modelů rozpoznávání a generování řeči.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2022)
Podmínky zakončení předmětu -

Absolvování ústní zkoušky a zápočet.

Udělení zápočtu je vázáno na přípravu a předvedení vlastních modelů rozpoznávání a generování mluvené řeči.

Zápočet lze opakovat.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Literatura -
Gernot A. Fink, Markov Models for Pattern Recognition, Springer, 2014

Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland, Cambridge, The HTK Book, Entropic Ltd. http://htk.eng.cam.ac.uk, 1995-2007

Zdena Palková, Fonetika a fonologie češtiny, Karolinum, Praha, 1997

Dong Yu,Li Deng, Automatic Speech Recognition A Deep Learning Approach, 2015

U. Kamath, J. Liu, J. Whitaker, Deep Learning for NLP and Speech Recognition, Springer, 2019

NPFL038 Detaily a novinky

Poslední úprava: Peterek Nino, Mgr., Ph.D. (23.05.2025)
Požadavky ke zkoušce -

Zkouška probíhá ústní formou a pokrývá teoretickou část předmětu (sylabu).

Zápočet není nutnou podmínkou k účasti u zkoušky.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (13.10.2017)
Sylabus -
  • Počítačové zpracování zvuku.

  • Úvod do produkce a vnímání řeči.

  • Vektorová kvantizace a GM (Gauss. Mixtures).

  • HMM řečové modely - HMM vyhodnocení, Viterbi dekódování, Viterbi trénování.

  • Transducery.

  • HMM řečová syntéza (HMM TTS).

  • DNN řečová syntéza (DNN TTS).

  • DNN-HMM hybridní systémy řečového rozpoznávání.

  • Pozvánka do kurzu NPFL079 s pokročilými metodami zpracování řeči (End-To-End DNN modely).

Praktická část:

Popis softwarového nářadí HTK

  • moduly pro přípravu dat,
  • moduly pro trénování, rozpoznávání a testování.

Příprava dat

  • gramatika úlohy,
  • jazykový model,
  • fonetický slovník,
  • nahrání dat, jejich přepis a kódování.

Vytvoření HMM monofonémů

  • vytvoření startovních modelů bez znalosti časových hranic fonémů,
  • ošetření modelu ticha,
  • automatické doladění přepisů.

Vytvoření HMM trifonémů

  • převod monofonému na trifonémy,
  • trifonémové sdílení stavů pomocí rozhodovacích stromů,
  • zjemnění pravděpodobnostních funkcí.

Metody vyhodnocení úspešnosti rozpoznávače.

Analýza prosodie mluvené řeči.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (24.05.2025)
 
Univerzita Karlova | Informační systém UK