Data-driven Pronunciation Generation for ASR
Název práce v češtině: | Generování fonetického slovníku pro rozpoznávání řeči z dat |
---|---|
Název v anglickém jazyce: | Data-driven Pronunciation Generation for ASR |
Klíčová slova: | ASR, fonetický slovník, data-driven, fonetika |
Klíčová slova anglicky: | ASR, phonetic dictionary, data-driven, unsupervised, phonetics |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Ondřej Plátek |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 27.02.2019 |
Datum zadání: | 27.02.2019 |
Datum potvrzení stud. oddělením: | 25.04.2019 |
Datum a čas obhajoby: | 09.09.2019 09:00 |
Datum odevzdání elektronické podoby: | 23.07.2019 |
Datum odevzdání tištěné podoby: | 19.07.2019 |
Datum proběhlé obhajoby: | 09.09.2019 |
Oponenti: | Mgr. Nino Peterek, Ph.D. |
Zásady pro vypracování |
Although ASR systems have greatly improved, they still use manually phonetic dictionary component. A student will investigate methods that can improve a phonetic dictionary by data-driven methods.
A student will focus on methods with as little supervision as possible[1][2]. A student will conduct several experiments with one of the current state-of-the-art toolkits [3] and compare manually handcrafted dictionaries with known semi- or un-supervised approaches such as [4] based on ASR performance - WER, SER. Furthermore, a student will implement an unsupervised (or a very weakly supervised) solution for pronunciation generation and evaluate it on a known dataset and compare it against state-of-the-art results[3][4]. Recommend approach will include multiple pronunciations per word in the dictionary as used at [4]. |
Seznam odborné literatury |
[1] Takahashi, Naoya, Tofigh Naghibi, and Beat Pfister. "Automatic pronunciation generation by utilizing semi-supervised deep neural networks." arXiv preprint arXiv:1606.05007 (2016).
[2] Kantor, Arthur, and Mark Hasegawa-Johnson. "HMM-based Pronunciation Dictionary Generation." New Tools and Methods for Very Large Scale Phonetics Research, University of Pennsylvania (2011). [3] Povey, Daniel, et al. The Kaldi speech recognition toolkit. No. CONF. IEEE Signal Processing Society, 2011. [4] Chen, Guoguo, et al. "Pronunciation and silence probability modeling for ASR." Sixteenth Annual Conference of the International Speech Communication Association. 2015. |
Předběžná náplň práce |
Fonetické slovníky v systémech rozpoznávání řeči se běžně používají pro zápis výslovnosti slov v daném jazyce. Fonetický slovník je typicky ručně sestavovaný lingvisty. Manuálně sestavované fonetické slovníky nemusejí být nutně ty nejoptimálnější pro rozpoznávání řeči. Tato práce zkoumá přístupy k automatické tvorbě slovníku bez učitele na základě dat. V práci prozkoumáme současné přístupy a implementuje řešení založené na datech a porovnáme manuálně sestavované slovníky s naším přístupem. |
Předběžná náplň práce v anglickém jazyce |
In ASR systems dictionaries are usually used to describe pronunciations of words in a language. They are typically hand-crafted by linguists. Manually created phonetic dictionaries are not necessarily the optimal ones. In this master thesis, we aim to explore approaches of unsupervised pronunciation generation for ASR. We will investigate current approaches, implement our data-driven solution and compare the current hand-crafted dictionaries with our approach. |