PředmětyPředměty(verze: 945)
Předmět, akademický rok 2014/2015
   Přihlásit přes CAS
Algoritmy rozpoznávání mluvené řeči - NPFL079
Anglický název: Algorithms in Speech Recognition
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2014 do 2017
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: Mgr. Nino Peterek, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: T_UFAL (04.05.2017)
Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči umožňujícími budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů (HMM, n-gramové a strukturované jazykové modely, FSM, grafové modely, heuristické prohledávání). Přednáška volně navazuje na úvodní seminář PFL038 a vhodně se doplňuje s přednáškami PFL067, PFL068.
Literatura -
Poslední úprava: T_UFAL (04.05.2017)
[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998

[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006

[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001

PFL079 Detaily a novinky

Požadavky ke zkoušce -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (10.06.2019)

Zkouška proběhne formou vypracování malých projektů (první dva na společné zadání, třetí jako naprogramování menší řečové aplikace s pomocí dostupných nástrojů nebo naprogramování rozšiřující funkce řečové knihovny).

Sylabus -
Poslední úprava: Mgr. Nino Peterek, Ph.D. (11.06.2019)

Přehled řečových technologií

  • nesamozřejmosti hlasové komunikace,
  • hlavní aplikace oboru a jejich architektura,
  • použité teorie a modely,
  • programátorské nástroje a knihovny,
  • knihy a časopisy řečových technologií.

Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3, částečně opakování z PFL038)

  • struktura a parametry skrytých Markovových modelů(HMM),
  • vyhodnocení skóre promluvy (Viterbi algoritmus),
  • trénování parametrů HMM (Baum-Welch algoritmus),
  • získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),
  • adaptace modelů na mluvčího (MAP, MLLR),
  • míra důvěryhodnosti rozpoznávání (confidence measure),
  • softwarové nástroje rozpoznávání mluvené řeči (HTK Tools, EST).

Modelování jazyka (PFL067 | JEL C4 | SPO C11 | PSU 5.4)

  • metody statistického modelování jazyka,
  • n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,
  • strukturované jazykové modely (PCFG),
  • odlišnosti modelování mluveného a psaného jazyka,
  • transducery a softwarové nástroje jazykového modelování (AT&T FSM Library, SRI LM Toolkit).

Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)

  • prohledávací algoritmy řeči (stavové prostory a heuristiky),
  • kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),
  • časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),
  • stavově synchronní prohledáván,
  • grafové modely (GMTK: The Graphical Models Toolkit).

Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)

  • efektivní manipulace lexikálního stromu,
  • seznam N-nejlepších hypotéz a víceprůchodová strategie,
  • AT&T GRM Library, AT&T DCD Library.

Hlasové dialogové systémy (SPO C17 | PSU C11)

  • charakteristiky spontánních dialogů,
  • prosodie a struktura dialogu,
  • sémantická representace,
  • řízení dialogu, detekce emocí,
  • Voice XML.

Identifikace řečníka (PSU C9)

  • typy systémů,
  • vybrané charakteristiky řeči pro rozpoznávání řečníka,
  • základní přístupy.

Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.

 
Univerzita Karlova | Informační systém UK