Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Multilingual speech synthesis
Thesis title in Czech: Vícejazyčná syntéza řeči
Thesis title in English: Multilingual speech synthesis
Key words: syntéza řeči, vícejazyčnost, zpracování přirozeného jazyka, hluboké učení
English key words: text-to-speech, speech synthesis, multilinguality, natural language processing, deep learning
Academic year of topic announcement: 2019/2020
Thesis type: diploma thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. et Mgr. Ondřej Dušek, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 29.01.2020
Date of assignment: 29.01.2020
Confirmed by Study dept. on: 10.02.2020
Date and time of defence: 08.07.2020 09:00
Date of electronic submission:27.05.2020
Date of submission of printed version:28.05.2020
Date of proceeded defence: 08.07.2020
Opponents: Mgr. Nino Peterek, Ph.D.
 
 
 
Guidelines
V oblasti syntézy řeči z psaného textu bylo v posledních letech dosaženo významného zvýšení kvality díky novým architekturám modelů založeným na neuronových sítích (Wang et al., 2017; Shen et al., 2018). Otevírají se proto nové oblasti výzkumu, jako multilinguální modely, které jsou např. schopny produkovat výstup pro více jazyků současně a udržet přitom stejný nebo podobný hlas (Yu et al., 2019; Cao et al., 2019). Dosud nebyly dostatečně prozkoumány možnosti užití systémů tohoto druhu pro více než tři jazyky nebo pro jazyky s menším množstvím dostupných dat (např. čeština).

Cíle této diplomové práce jsou proto následující:
1) Implementovat (i s použitím existujícího volně dostupného kódu) systém pro syntézu řeči založený na neuronových sítích, schopný produkovat řeč ve více jazycích
2) Natrénovat tento model pro několik jazyků
3) Vyhodnotit natrénovaný model – popsat jeho možnosti a porovnat jeho výstupy s výstupy jednojazyčných modelů
References
Cao, Yuewen, et al. “End-to-End Code-Switched TTS with Mix of Monolingual Recordings.” ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6935–39. IEEE Xplore, doi:10.1109/ICASSP.2019.8682927.
Hsu, Wei-Ning, et al. “Disentangling Correlated Speaker and Noise for Speech Synthesis via Data Augmentation and Adversarial Factorization.” NeurIPS 2018 Interpretability and Robustness for Audio, Speech and Language Workshop, 2018. openreview.net, https://openreview.net/forum?id=Bkg9ZeBB37.
Jia, Ye, et al. “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis.” NeurIPS 2018, 2018. arXiv.org, http://arxiv.org/abs/1806.04558.
Shen, Jonathan, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.” ICASSP, 2018. arXiv.org, http://arxiv.org/abs/1712.05884.
Wang, Yuxuan, et al. “Tacotron: Towards End-to-End Speech Synthesis.” Interspeech 2017, ISCA, 2017, pp. 4006–10. DOI.org (Crossref), doi:10.21437/Interspeech.2017-1452.
Zhang, Yu, et al. “Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning.” Interspeech, 2019. arXiv.org, http://arxiv.org/abs/1907.04448.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html