Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Data-driven Pronunciation Generation for ASR

Název práce v češtině:	Generování fonetického slovníku pro rozpoznávání řeči z dat
Název v anglickém jazyce:	Data-driven Pronunciation Generation for ASR
Klíčová slova:	ASR, fonetický slovník, data-driven, fonetika
Klíčová slova anglicky:	ASR, phonetic dictionary, data-driven, unsupervised, phonetics
Akademický rok vypsání:	2018/2019
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Ondřej Plátek
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	27.02.2019
Datum zadání:	27.02.2019
Datum potvrzení stud. oddělením:	25.04.2019
Datum a čas obhajoby:	09.09.2019 09:00
Datum odevzdání elektronické podoby:	23.07.2019
Datum odevzdání tištěné podoby:	19.07.2019
Datum proběhlé obhajoby:	09.09.2019
Oponenti:	Mgr. Nino Peterek, Ph.D.

Zásady pro vypracování

Although ASR systems have greatly improved, they still use manually phonetic dictionary component. A student will investigate methods that can improve a phonetic dictionary by data-driven methods.
A student will focus on methods with as little supervision as possible[1][2]. A student will conduct several experiments with one of the current state-of-the-art toolkits [3] and compare manually handcrafted dictionaries with known semi- or un-supervised approaches such as [4] based on ASR performance - WER, SER.
Furthermore, a student will implement an unsupervised (or a very weakly supervised) solution for pronunciation generation and evaluate it on a known dataset and compare it against state-of-the-art results[3][4].
Recommend approach will include multiple pronunciations per word in the dictionary as used at [4].

Seznam odborné literatury

[1] Takahashi, Naoya, Tofigh Naghibi, and Beat Pfister. "Automatic pronunciation generation by utilizing semi-supervised deep neural networks." arXiv preprint arXiv:1606.05007 (2016).
[2] Kantor, Arthur, and Mark Hasegawa-Johnson. "HMM-based Pronunciation Dictionary Generation." New Tools and Methods for Very Large Scale Phonetics Research, University of Pennsylvania (2011).
[3] Povey, Daniel, et al. The Kaldi speech recognition toolkit. No. CONF. IEEE Signal Processing Society, 2011.
[4] Chen, Guoguo, et al. "Pronunciation and silence probability modeling for ASR." Sixteenth Annual Conference of the International Speech Communication Association. 2015.

Předběžná náplň práce

Fonetické slovníky v systémech rozpoznávání řeči se běžně používají pro zápis výslovnosti slov v daném jazyce. Fonetický slovník je typicky ručně sestavovaný lingvisty. Manuálně sestavované fonetické slovníky nemusejí být nutně ty nejoptimálnější pro rozpoznávání řeči. Tato práce zkoumá přístupy k automatické tvorbě slovníku bez učitele na základě dat. V práci prozkoumáme současné přístupy a implementuje řešení založené na datech a porovnáme manuálně sestavované slovníky s naším přístupem.

Předběžná náplň práce v anglickém jazyce

In ASR systems dictionaries are usually used to describe pronunciations of words in a language. They are typically hand-crafted by linguists. Manually created phonetic dictionaries are not necessarily the optimal ones. In this master thesis, we aim to explore approaches of unsupervised pronunciation generation for ASR. We will investigate current approaches, implement our data-driven solution and compare the current hand-crafted dictionaries with our approach.