PředmětyPředměty(verze: 835)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Základy rozpoznávání a generování mluvené řeči - NPFL038
Anglický název: Fundamentals of Speech Recognition and Generation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2015
Semestr: zimní
E-Kredity: 6
Rozsah, examinace: zimní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Garant: Mgr. Nino Peterek, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (13.10.2017)

Tato přednáška se zabývá rozpoznáváním řeči, generováním řeči, extrakcí hlasových rysů a modelováním charakteristik výslovnosti. Zvláštní pozornost je věnována Skrytým Markovovým modelům použitým na řeč (FFT, n-dimenzionální klastrování, extrakci hodnot parametrů z dat, fonetické reprezentaci, prozodické analýze apod.). Součástí cvičení je natrénování vlastních modelů rozpoznávání a generování řeči.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (13.10.2017)

Udělení zápočtu je vázáno na přípravu a předvedení vlastních modelů rozpoznávání a generování mluvené řeči.

Zápočet lze opakovat.

Literatura -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (13.10.2017)

Gernot A. Fink, Markov Models for Pattern Recognition, Springer, 2014

Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland, Cambridge, The HTK Book, Entropic Ltd. http://htk.eng.cam.ac.uk, 1995-2007

Zdena Palková, Fonetika a fonologie češtiny, Karolinum, Praha, 1997

NPFL038 Detaily a novinky

Požadavky ke zkoušce -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (13.10.2017)

Zkouška probíhá ústní formou a pokrývá teoretickou část předmětu (sylabu).

Zápočet není nutnou podmínkou k účasti u zkoušky.

Sylabus -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (13.10.2017)

Úvod do produkce a vnímání řeči.

Základní principy automatického zpracování řeči (HMM)

  • rozpoznávání izolovaných slov,
  • definice výstupních pravděpodobností,
  • Baum-Welch trénovací algoritmus,
  • rozpoznávání a Viterbi algoritmus,
  • rozpoznávání plynulé řeči,
  • adaptace modelů na mluvčího.

Popis softwarového nářadí HTK

  • moduly pro přípravu dat,
  • moduly pro trénování, rozpoznávání a testování.

Příprava dat

  • gramatika úlohy,
  • jazykový model,
  • fonetický slovník,
  • nahrání dat, jejich přepis a kódování.

Vytvoření HMM monofonémů

  • vytvoření startovních modelů bez znalosti časových hranic fonémů,
  • ošetření modelu ticha,
  • automatické doladění přepisů.

Vytvoření HMM trifonémů

  • převod monofonému na trifonémy,
  • trifonémové sdílení stavů pomocí rozhodovacích stromů,
  • zjemnění pravděpodobnostních funkcí.

Metody vyhodnocení úspešnosti rozpoznávače.

Základní principy automatického generování řeči.

Analýza prosodie mluvené řeči.

 
Univerzita Karlova | Informační systém UK