PředmětyPředměty(verze: 957)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Základy rozpoznávání a generování mluvené řeči - NPFL038
Anglický název: Fundamentals of Speech Recognition and Generation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: zimní
E-Kredity: 5
Rozsah, examinace: zimní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/npfl038
Garant: Mgr. Nino Peterek, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Je neslučitelnost pro: NPFX038
Je záměnnost pro: NPFX038
Anotace -
Tato přednáška se zabývá rozpoznáváním řeči, generováním řeči, extrakcí hlasových rysů a modelováním charakteristik výslovnosti. Zvláštní pozornost je věnována Skrytým Markovovým modelům použitým na řeč (FFT, n-dimenzionální klastrování, extrakci hodnot parametrů z dat, fonetické reprezentaci, prozodické analýze apod.) a jejich DNN-HMM hybridním modelům. Součástí cvičení je natrénování vlastních modelů rozpoznávání a generování řeči.
Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (11.05.2022)
Podmínky zakončení předmětu -

Absolvování ústní zkoušky a zápočet.

Udělení zápočtu je vázáno na přípravu a předvedení vlastních modelů rozpoznávání a generování mluvené řeči.

Zápočet lze opakovat.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (10.06.2019)
Literatura -
Gernot A. Fink, Markov Models for Pattern Recognition, Springer, 2014

Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland, Cambridge, The HTK Book, Entropic Ltd. http://htk.eng.cam.ac.uk, 1995-2007

Zdena Palková, Fonetika a fonologie češtiny, Karolinum, Praha, 1997

Dong Yu,Li Deng, Automatic Speech Recognition A Deep Learning Approach, 2015

NPFL038 Detaily a novinky

Poslední úprava: Peterek Nino, Mgr., Ph.D. (11.05.2022)
Požadavky ke zkoušce -

Zkouška probíhá ústní formou a pokrývá teoretickou část předmětu (sylabu).

Zápočet není nutnou podmínkou k účasti u zkoušky.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (13.10.2017)
Sylabus -

Úvod do produkce a vnímání řeči.

Základní principy automatického zpracování řeči (HMM)

  • rozpoznávání izolovaných slov,
  • definice výstupních pravděpodobností,
  • Baum-Welch trénovací algoritmus,
  • rozpoznávání a Viterbi algoritmus,
  • rozpoznávání plynulé řeči,
  • adaptace modelů na mluvčího.

Popis softwarového nářadí HTK

  • moduly pro přípravu dat,
  • moduly pro trénování, rozpoznávání a testování.

Příprava dat

  • gramatika úlohy,
  • jazykový model,
  • fonetický slovník,
  • nahrání dat, jejich přepis a kódování.

Vytvoření HMM monofonémů

  • vytvoření startovních modelů bez znalosti časových hranic fonémů,
  • ošetření modelu ticha,
  • automatické doladění přepisů.

Vytvoření HMM trifonémů

  • převod monofonému na trifonémy,
  • trifonémové sdílení stavů pomocí rozhodovacích stromů,
  • zjemnění pravděpodobnostních funkcí.

Metody vyhodnocení úspešnosti rozpoznávače.

Základní principy automatického generování řeči.

Analýza prosodie mluvené řeči.

Poslední úprava: Peterek Nino, Mgr., Ph.D. (13.10.2017)
 
Univerzita Karlova | Informační systém UK