Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Efficient neural speech synthesis

Název práce v češtině:	Efektivní neuronová syntéza řeči
Název v anglickém jazyce:	Efficient neural speech synthesis
Klíčová slova:	syntéza řeči, zpracování přirozeného jazyka, hluboké učení
Klíčová slova anglicky:	speech synthesis, text-to-speech, natural language processing, deep learning
Akademický rok vypsání:	2019/2020
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. et Mgr. Ondřej Dušek, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	29.01.2020
Datum zadání:	29.01.2020
Datum potvrzení stud. oddělením:	10.02.2020
Datum a čas obhajoby:	08.07.2020 09:00
Datum odevzdání elektronické podoby:	27.05.2020
Datum odevzdání tištěné podoby:	28.05.2020
Datum proběhlé obhajoby:	08.07.2020
Oponenti:	Mgr. Jan Hajič, Ph.D.

Zásady pro vypracování

Moderní neuronové modely v posledních letech podstatně zvýšily kvalitu a přirozenost systémů pro syntézu řeči z psaného textu (Oord et al., 2016; Wang et al., 2017; Shen et al., 2018). S kvalitou zároveň významně vzrostla i výpočetní náročnost, která u architektur používajících rekurentní neuronové sítě významně ztěžuje trénování modelu i nasazení v reálném čase. Nedávno se objevily práce cílící na lepší paralelizaci výpočtů během trénování modelu s pomocí konvolučních sítí (Tachibana et al., 2018; Ping et al., 2018). Paralelizací během inference pomocí tzv. fertility se zabývali Ren et al. (2019). Obecně je však paralelizace v syntéze řeči spíše neobvyklý přístup.

Navrhovaná diplomová práce proto provede detailnější výzkum metod pro paralelizaci výpočtů v syntéze řeči. Cíle práce jsou:
1) Implementovat (možno i částečně s použitím existujícího kódu) systém pro syntézu řeči, který bude dovolovat paralelizaci během trénování a/nebo inference.
2) Natrénovat tento systém pro syntézu zvoleného jazyka podle dostupnosti trénovacích dat (pravděpodobně čeština nebo angličtina).
3) Vyhodnotit rychlost a výpočetní náročnost systému.
4) Vyhodnotit kvalitu výstupu systému ve srovnání s neparalelním systémem.

Seznam odborné literatury

Oord, Aaron van den, et al. “WaveNet: A Generative Model for Raw Audio.” ArXiv:1609.03499 [Cs], Sept. 2016. arXiv.org, http://arxiv.org/abs/1609.03499.
Ping, Wei, et al. “Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning.” International Conference on Learning Representations, 2018. openreview.net, https://openreview.net/forum?id=HJtEm4p6Z.
Ren, Yi, et al. Fastspeech: Fast, robust and controllable text to speech. In: Advances in Neural Information Processing Systems. 2019. p. 3165-3174., https://arxiv.org/pdf/1905.09263.pdf
Shen, Jonathan, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.” ICASSP, 2018. arXiv.org, http://arxiv.org/abs/1712.05884.
Tachibana, Hideyuki, et al. “Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784–88. IEEE Xplore, doi:10.1109/ICASSP.2018.8461829.
Wang, Yuxuan, et al. “Tacotron: Towards End-to-End Speech Synthesis.” Interspeech 2017, ISCA, 2017, pp. 4006–10. DOI.org (Crossref), doi:10.21437/Interspeech.2017-1452.