Efficient neural speech synthesis
Název práce v češtině: | Efektivní neuronová syntéza řeči |
---|---|
Název v anglickém jazyce: | Efficient neural speech synthesis |
Klíčová slova: | syntéza řeči, zpracování přirozeného jazyka, hluboké učení |
Klíčová slova anglicky: | speech synthesis, text-to-speech, natural language processing, deep learning |
Akademický rok vypsání: | 2019/2020 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. et Mgr. Ondřej Dušek, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 29.01.2020 |
Datum zadání: | 29.01.2020 |
Datum potvrzení stud. oddělením: | 10.02.2020 |
Datum a čas obhajoby: | 08.07.2020 09:00 |
Datum odevzdání elektronické podoby: | 27.05.2020 |
Datum odevzdání tištěné podoby: | 28.05.2020 |
Datum proběhlé obhajoby: | 08.07.2020 |
Oponenti: | Mgr. Jan Hajič, Ph.D. |
Zásady pro vypracování |
Moderní neuronové modely v posledních letech podstatně zvýšily kvalitu a přirozenost systémů pro syntézu řeči z psaného textu (Oord et al., 2016; Wang et al., 2017; Shen et al., 2018). S kvalitou zároveň významně vzrostla i výpočetní náročnost, která u architektur používajících rekurentní neuronové sítě významně ztěžuje trénování modelu i nasazení v reálném čase. Nedávno se objevily práce cílící na lepší paralelizaci výpočtů během trénování modelu s pomocí konvolučních sítí (Tachibana et al., 2018; Ping et al., 2018). Paralelizací během inference pomocí tzv. fertility se zabývali Ren et al. (2019). Obecně je však paralelizace v syntéze řeči spíše neobvyklý přístup.
Navrhovaná diplomová práce proto provede detailnější výzkum metod pro paralelizaci výpočtů v syntéze řeči. Cíle práce jsou: 1) Implementovat (možno i částečně s použitím existujícího kódu) systém pro syntézu řeči, který bude dovolovat paralelizaci během trénování a/nebo inference. 2) Natrénovat tento systém pro syntézu zvoleného jazyka podle dostupnosti trénovacích dat (pravděpodobně čeština nebo angličtina). 3) Vyhodnotit rychlost a výpočetní náročnost systému. 4) Vyhodnotit kvalitu výstupu systému ve srovnání s neparalelním systémem. |
Seznam odborné literatury |
Oord, Aaron van den, et al. “WaveNet: A Generative Model for Raw Audio.” ArXiv:1609.03499 [Cs], Sept. 2016. arXiv.org, http://arxiv.org/abs/1609.03499.
Ping, Wei, et al. “Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning.” International Conference on Learning Representations, 2018. openreview.net, https://openreview.net/forum?id=HJtEm4p6Z. Ren, Yi, et al. Fastspeech: Fast, robust and controllable text to speech. In: Advances in Neural Information Processing Systems. 2019. p. 3165-3174., https://arxiv.org/pdf/1905.09263.pdf Shen, Jonathan, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.” ICASSP, 2018. arXiv.org, http://arxiv.org/abs/1712.05884. Tachibana, Hideyuki, et al. “Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784–88. IEEE Xplore, doi:10.1109/ICASSP.2018.8461829. Wang, Yuxuan, et al. “Tacotron: Towards End-to-End Speech Synthesis.” Interspeech 2017, ISCA, 2017, pp. 4006–10. DOI.org (Crossref), doi:10.21437/Interspeech.2017-1452. |