Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Generování fonetického slovníku pro rozpoznávání řeči z dat bez učitele
Název práce v češtině: Generování fonetického slovníku pro rozpoznávání řeči z dat bez učitele
Název v anglickém jazyce: Unsupervised Lexicon Generation for ASR
Klíčová slova: ASR, fonetický slovník, data-driven, fonetika
Klíčová slova anglicky: ASR, phonetic dictionary, data-driven, unsupervised, phonetics
Akademický rok vypsání: 2021/2022
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Ondřej Plátek
Řešitel:
Zásady pro vypracování
Jednou z důležitých komponent v systému automatického rozpoznávání řeči je fonetický slovník. Tématem této práce bude seznámení se s současnou literaturou, která se zabývá automatickým, či polo-automatickým vytvářením fonetických slovníků. Cílem práce je naimplementovat systém, který s minimálními zásahy člověka bude schopen připravit fonetický slovník a bude dosahovat srovnatelných výsledků s manuálními slovníky pro vybrané jazyky.
Důraz při vypracování bude kladem na opakovatelnost experimentů a data-driven přístup.
Seznam odborné literatury
Kantor, Arthur, and Mark Hasegawa-Johnson. "HMM-based Pronunciation Dictionary Generation." New Tools and Methods for Very Large Scale Phonetics Research, University of Pennsylvania (2011).
Takahashi, Naoya, Tofigh Naghibi, and Beat Pfister. "Automatic pronunciation generation by utilizing semi-supervised deep neural networks." arXiv preprint arXiv:1606.05007 (2016).
Povey, Daniel, et al. The Kaldi speech recognition toolkit. No. CONF. IEEE Signal Processing Society, 2011. https://github.com/kaldi-asr
Předběžná náplň práce
Fonetické slovníky v systémech rozpoznávání řeči se běžně používají pro zápis výslovnosti slov v daném jazyce. Fonetický slovník je typicky ručně sestavovaný lingvisty. Manuálně sestavované fonetické slovníky nemusejí být nutně ty nejoptimálnější pro rozpoznávání řeči. Tato práce zkoumá přístupy k automatické tvorbě slovníku bez učitele na základě dat. V práci prozkoumáme současné přístupy a implementuje řešení založené na datech a porovnáme manuálně sestavované slovníky s naším přístupem.
Předběžná náplň práce v anglickém jazyce
In ASR systems dictionaries are usually used to describe pronunciations of words in a language. They are typically hand-crafted by linguists. Manually created phonetic dictionaries are not necessarily the optimal ones. In this master thesis, we aim to explore approaches of unsupervised pronunciation generation for ASR. We will investigate current approaches, implement our data-driven solution and compare the current hand-crafted dictionaries with our approach.
 
Univerzita Karlova | Informační systém UK