velikost textu

New Methods in Statistical Speech Recognition

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
New Methods in Statistical Speech Recognition
Název v češtině:
Nové metody ve statistickém rozpoznávání řeči
Typ:
Disertační práce
Autor:
Mgr. David Klusáček, Ph.D.
Školitel:
prof. RNDr. Jan Hajič, Dr.
Oponenti:
Prof. Ing. Josef Psutka, CSc.
doc. Dr. Jan Černocký
Id práce:
40901
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (P1801)
Obor studia:
Matematická lingvistika (4I3)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
26. 9. 2012
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstrakt:
Název Práce: Nové metody ve statistickém rozpoznávání řeči Autor: David Klusáček Katedra: Ústav formální a aplikované lingvistiky, MFF UK Školitel: Prof. RNDr. Jan Hajič, Dr., ÚFAL. Abstrakt: Tato práce se pokouší identifikovat limity současných rozpoznávačů řeči a navrhnout metody jak jejich omezení překonat. Po historickém úvodu a popisu současného stavu je jako nejslabší článek řetězu prohlášen akustický front-end, zejména jeho činnost za zhoršených zvukových podmínek. Navrho- vané řešení, tzv. NUFIBA front-end, zahrnuje kompenzaci ozvěny, segmentaci zvuku na řečníka a pozadí, a průběžné sledování SNR, které v součinnosti s akustickým modelem zabraňuje lavinovému šíření chyb. Z důvodu nedostatku času jiz bohužel nedošlo k implementaci celého rozpoznávače řeči (i když ně- které části byly značně rozpracovány, například jazykový model založený na MMI třídách). Nové myšlenky tak byly vyzkoušeny pouze v jednodušším roz- poznávači fonémů. Klíčová slova: Automatické rozpoznávání řeči, souvislá řeč, NUFIBA front- end, Jazykový model, Sluchová dráha, MMI, Shlukování, Slepá dekonvoluce, Časové a frekvenční maskování, Potlačení ozvěny, Rozpoznávání fonémů.
Abstract v angličtině:
Title: New Methods in Statistical Speech Recognition Author: David Klusáček Department: Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics in Prague, Malostranské náměstí 25, 118 00 Praha 1. Advisor: Prof. RNDr. Jan Hajič, Dr., Institute of Formal and Applied Linguistics. Abstract: This works aims to identify limits of contemporary speech rec- ognizers and tries to come up with methods that could push back the fron- tiers. After describing the state of the art, the weakest link of the chain has been identified in the acoustic front-end, especially when working in harsh acoustic conditions. NUFIBA front-end, the proposed solution, includes re- verb compensation and speaker/background segmentation as well as contin- uous SNR monitoring which, thru cooperation with acoustic model, hinders from avalanche spreading of recognition errors. Owing to the lack of time, only a phoneme recognizer was finally implemented, although large blocks of originally intended word-based continuous speech recognizer were implemented and tested (such as the MMI-class based language model).
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. David Klusáček, Ph.D. 4.28 MB
Stáhnout Abstrakt v českém jazyce Mgr. David Klusáček, Ph.D. 14 kB
Stáhnout Abstrakt anglicky Mgr. David Klusáček, Ph.D. 13 kB
Stáhnout Posudek vedoucího prof. RNDr. Jan Hajič, Dr. 951 kB
Stáhnout Posudek oponenta Prof. Ing. Josef Psutka, CSc. 70 kB
Stáhnout Posudek oponenta doc. Dr. Jan Černocký 120 kB
Stáhnout Záznam o průběhu obhajoby doc. Ing. Zdeněk Žabokrtský, Ph.D. 76 kB