Jednou z důležitých komponent v systému automatického rozpoznávání řeči je fonetický slovník. Tématem této práce bude seznámení se s současnou literaturou, která se zabývá automatickým, či polo-automatickým vytvářením fonetických slovníků. Cílem práce je naimplementovat systém, který s minimálními zásahy člověka bude schopen připravit fonetický slovník a bude dosahovat srovnatelných výsledků s manuálními slovníky pro vybrané jazyky.
Důraz při vypracování bude kladem na opakovatelnost experimentů a data-driven přístup.
References
Kantor, Arthur, and Mark Hasegawa-Johnson. "HMM-based Pronunciation Dictionary Generation." New Tools and Methods for Very Large Scale Phonetics Research, University of Pennsylvania (2011).
Takahashi, Naoya, Tofigh Naghibi, and Beat Pfister. "Automatic pronunciation generation by utilizing semi-supervised deep neural networks." arXiv preprint arXiv:1606.05007 (2016).
Povey, Daniel, et al. The Kaldi speech recognition toolkit. No. CONF. IEEE Signal Processing Society, 2011. https://github.com/kaldi-asr
Preliminary scope of work
Fonetické slovníky v systémech rozpoznávání řeči se běžně používají pro zápis výslovnosti slov v daném jazyce. Fonetický slovník je typicky ručně sestavovaný lingvisty. Manuálně sestavované fonetické slovníky nemusejí být nutně ty nejoptimálnější pro rozpoznávání řeči. Tato práce zkoumá přístupy k automatické tvorbě slovníku bez učitele na základě dat. V práci prozkoumáme současné přístupy a implementuje řešení založené na datech a porovnáme manuálně sestavované slovníky s naším přístupem.
Preliminary scope of work in English
In ASR systems dictionaries are usually used to describe pronunciations of words in a language. They are typically hand-crafted by linguists. Manually created phonetic dictionaries are not necessarily the optimal ones. In this master thesis, we aim to explore approaches of unsupervised pronunciation generation for ASR. We will investigate current approaches, implement our data-driven solution and compare the current hand-crafted dictionaries with our approach.