Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Efficient neural speech synthesis
Název práce v češtině: Efektivní neuronová syntéza řeči
Název v anglickém jazyce: Efficient neural speech synthesis
Klíčová slova: syntéza řeči, zpracování přirozeného jazyka, hluboké učení
Klíčová slova anglicky: speech synthesis, text-to-speech, natural language processing, deep learning
Akademický rok vypsání: 2019/2020
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. et Mgr. Ondřej Dušek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 29.01.2020
Datum zadání: 29.01.2020
Datum potvrzení stud. oddělením: 10.02.2020
Datum a čas obhajoby: 08.07.2020 09:00
Datum odevzdání elektronické podoby:27.05.2020
Datum odevzdání tištěné podoby:28.05.2020
Datum proběhlé obhajoby: 08.07.2020
Oponenti: Mgr. Jan Hajič, Ph.D.
 
 
 
Zásady pro vypracování
Moderní neuronové modely v posledních letech podstatně zvýšily kvalitu a přirozenost systémů pro syntézu řeči z psaného textu (Oord et al., 2016; Wang et al., 2017; Shen et al., 2018). S kvalitou zároveň významně vzrostla i výpočetní náročnost, která u architektur používajících rekurentní neuronové sítě významně ztěžuje trénování modelu i nasazení v reálném čase. Nedávno se objevily práce cílící na lepší paralelizaci výpočtů během trénování modelu s pomocí konvolučních sítí (Tachibana et al., 2018; Ping et al., 2018). Paralelizací během inference pomocí tzv. fertility se zabývali Ren et al. (2019). Obecně je však paralelizace v syntéze řeči spíše neobvyklý přístup.

Navrhovaná diplomová práce proto provede detailnější výzkum metod pro paralelizaci výpočtů v syntéze řeči. Cíle práce jsou:
1) Implementovat (možno i částečně s použitím existujícího kódu) systém pro syntézu řeči, který bude dovolovat paralelizaci během trénování a/nebo inference.
2) Natrénovat tento systém pro syntézu zvoleného jazyka podle dostupnosti trénovacích dat (pravděpodobně čeština nebo angličtina).
3) Vyhodnotit rychlost a výpočetní náročnost systému.
4) Vyhodnotit kvalitu výstupu systému ve srovnání s neparalelním systémem.
Seznam odborné literatury
Oord, Aaron van den, et al. “WaveNet: A Generative Model for Raw Audio.” ArXiv:1609.03499 [Cs], Sept. 2016. arXiv.org, http://arxiv.org/abs/1609.03499.
Ping, Wei, et al. “Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning.” International Conference on Learning Representations, 2018. openreview.net, https://openreview.net/forum?id=HJtEm4p6Z.
Ren, Yi, et al. Fastspeech: Fast, robust and controllable text to speech. In: Advances in Neural Information Processing Systems. 2019. p. 3165-3174., https://arxiv.org/pdf/1905.09263.pdf
Shen, Jonathan, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.” ICASSP, 2018. arXiv.org, http://arxiv.org/abs/1712.05884.
Tachibana, Hideyuki, et al. “Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784–88. IEEE Xplore, doi:10.1109/ICASSP.2018.8461829.
Wang, Yuxuan, et al. “Tacotron: Towards End-to-End Speech Synthesis.” Interspeech 2017, ISCA, 2017, pp. 4006–10. DOI.org (Crossref), doi:10.21437/Interspeech.2017-1452.
 
Univerzita Karlova | Informační systém UK