Multilingual speech synthesis
Název práce v češtině: | Vícejazyčná syntéza řeči |
---|---|
Název v anglickém jazyce: | Multilingual speech synthesis |
Klíčová slova: | syntéza řeči, vícejazyčnost, zpracování přirozeného jazyka, hluboké učení |
Klíčová slova anglicky: | text-to-speech, speech synthesis, multilinguality, natural language processing, deep learning |
Akademický rok vypsání: | 2019/2020 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. et Mgr. Ondřej Dušek, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 29.01.2020 |
Datum zadání: | 29.01.2020 |
Datum potvrzení stud. oddělením: | 10.02.2020 |
Datum a čas obhajoby: | 08.07.2020 09:00 |
Datum odevzdání elektronické podoby: | 27.05.2020 |
Datum odevzdání tištěné podoby: | 28.05.2020 |
Datum proběhlé obhajoby: | 08.07.2020 |
Oponenti: | Mgr. Nino Peterek, Ph.D. |
Zásady pro vypracování |
V oblasti syntézy řeči z psaného textu bylo v posledních letech dosaženo významného zvýšení kvality díky novým architekturám modelů založeným na neuronových sítích (Wang et al., 2017; Shen et al., 2018). Otevírají se proto nové oblasti výzkumu, jako multilinguální modely, které jsou např. schopny produkovat výstup pro více jazyků současně a udržet přitom stejný nebo podobný hlas (Yu et al., 2019; Cao et al., 2019). Dosud nebyly dostatečně prozkoumány možnosti užití systémů tohoto druhu pro více než tři jazyky nebo pro jazyky s menším množstvím dostupných dat (např. čeština).
Cíle této diplomové práce jsou proto následující: 1) Implementovat (i s použitím existujícího volně dostupného kódu) systém pro syntézu řeči založený na neuronových sítích, schopný produkovat řeč ve více jazycích 2) Natrénovat tento model pro několik jazyků 3) Vyhodnotit natrénovaný model – popsat jeho možnosti a porovnat jeho výstupy s výstupy jednojazyčných modelů |
Seznam odborné literatury |
Cao, Yuewen, et al. “End-to-End Code-Switched TTS with Mix of Monolingual Recordings.” ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6935–39. IEEE Xplore, doi:10.1109/ICASSP.2019.8682927.
Hsu, Wei-Ning, et al. “Disentangling Correlated Speaker and Noise for Speech Synthesis via Data Augmentation and Adversarial Factorization.” NeurIPS 2018 Interpretability and Robustness for Audio, Speech and Language Workshop, 2018. openreview.net, https://openreview.net/forum?id=Bkg9ZeBB37. Jia, Ye, et al. “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis.” NeurIPS 2018, 2018. arXiv.org, http://arxiv.org/abs/1806.04558. Shen, Jonathan, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.” ICASSP, 2018. arXiv.org, http://arxiv.org/abs/1712.05884. Wang, Yuxuan, et al. “Tacotron: Towards End-to-End Speech Synthesis.” Interspeech 2017, ISCA, 2017, pp. 4006–10. DOI.org (Crossref), doi:10.21437/Interspeech.2017-1452. Zhang, Yu, et al. “Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning.” Interspeech, 2019. arXiv.org, http://arxiv.org/abs/1907.04448. |