velikost textu

Data-driven Pronunciation Generation for ASR

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Data-driven Pronunciation Generation for ASR
Název v češtině:
Generování fonetického slovníku pro rozpoznávání řeči z dat
Typ:
Diplomová práce
Autor:
Mgr. Maria Obedkova
Vedoucí:
Mgr. Ondřej Plátek
Oponent:
Mgr. Nino Peterek, Ph.D.
Id práce:
212087
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (N1801)
Obor studia:
Matematická lingvistika (IMLA)
Přidělovaný titul:
Mgr.
Datum obhajoby:
9. 9. 2019
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
ASR, fonetický slovník, data-driven, fonetika
Klíčová slova v angličtině:
ASR, phonetic dictionary, data-driven, unsupervised, phonetics
Abstract v angličtině:
Data-Driven Pronunciation Generation for ASR Maria Obedkova In ASR systems, dictionaries are usually used to describe pronunciations of words in a language. These dictionaries are typically hand-crafted by linguists. One of the most significant drawbacks of dictionaries created this way is that linguistically motivated pronunciations are not necessarily the optimal ones for ASR. The goal of this research was to explore approaches of data-driven pro- nunciation generation for ASR. We investigated several approaches of lexicon generation and implemented the completely new data-driven solution based on the pronunciation clustering. We proposed an approach for feature extraction and researched different unsupervised methods for pronunciation clustering. We evaluated the proposed approach and compared it with the current hand-crafted dictionary. The proposed data-driven approach could beat the established base- lines but underperformed in comparison to the hand-crafted dictionary which could be due to unsatisfactory features extracted from data or insufficient fine tuning. 1
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Maria Obedkova 3.28 MB
Stáhnout Abstrakt anglicky Mgr. Maria Obedkova 32 kB
Stáhnout Posudek vedoucího Mgr. Ondřej Plátek 105 kB
Stáhnout Posudek oponenta Mgr. Nino Peterek, Ph.D. 61 kB
Stáhnout Záznam o průběhu obhajoby prof. RNDr. Jan Hajič, Dr. 152 kB