Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Multilingual speech synthesis
Název práce v češtině: Vícejazyčná syntéza řeči
Název v anglickém jazyce: Multilingual speech synthesis
Klíčová slova: syntéza řeči, vícejazyčnost, zpracování přirozeného jazyka, hluboké učení
Klíčová slova anglicky: text-to-speech, speech synthesis, multilinguality, natural language processing, deep learning
Akademický rok vypsání: 2019/2020
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. et Mgr. Ondřej Dušek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 29.01.2020
Datum zadání: 29.01.2020
Datum potvrzení stud. oddělením: 10.02.2020
Datum a čas obhajoby: 08.07.2020 09:00
Datum odevzdání elektronické podoby:27.05.2020
Datum odevzdání tištěné podoby:28.05.2020
Datum proběhlé obhajoby: 08.07.2020
Oponenti: Mgr. Nino Peterek, Ph.D.
 
 
 
Zásady pro vypracování
V oblasti syntézy řeči z psaného textu bylo v posledních letech dosaženo významného zvýšení kvality díky novým architekturám modelů založeným na neuronových sítích (Wang et al., 2017; Shen et al., 2018). Otevírají se proto nové oblasti výzkumu, jako multilinguální modely, které jsou např. schopny produkovat výstup pro více jazyků současně a udržet přitom stejný nebo podobný hlas (Yu et al., 2019; Cao et al., 2019). Dosud nebyly dostatečně prozkoumány možnosti užití systémů tohoto druhu pro více než tři jazyky nebo pro jazyky s menším množstvím dostupných dat (např. čeština).

Cíle této diplomové práce jsou proto následující:
1) Implementovat (i s použitím existujícího volně dostupného kódu) systém pro syntézu řeči založený na neuronových sítích, schopný produkovat řeč ve více jazycích
2) Natrénovat tento model pro několik jazyků
3) Vyhodnotit natrénovaný model – popsat jeho možnosti a porovnat jeho výstupy s výstupy jednojazyčných modelů
Seznam odborné literatury
Cao, Yuewen, et al. “End-to-End Code-Switched TTS with Mix of Monolingual Recordings.” ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6935–39. IEEE Xplore, doi:10.1109/ICASSP.2019.8682927.
Hsu, Wei-Ning, et al. “Disentangling Correlated Speaker and Noise for Speech Synthesis via Data Augmentation and Adversarial Factorization.” NeurIPS 2018 Interpretability and Robustness for Audio, Speech and Language Workshop, 2018. openreview.net, https://openreview.net/forum?id=Bkg9ZeBB37.
Jia, Ye, et al. “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis.” NeurIPS 2018, 2018. arXiv.org, http://arxiv.org/abs/1806.04558.
Shen, Jonathan, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.” ICASSP, 2018. arXiv.org, http://arxiv.org/abs/1712.05884.
Wang, Yuxuan, et al. “Tacotron: Towards End-to-End Speech Synthesis.” Interspeech 2017, ISCA, 2017, pp. 4006–10. DOI.org (Crossref), doi:10.21437/Interspeech.2017-1452.
Zhang, Yu, et al. “Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning.” Interspeech, 2019. arXiv.org, http://arxiv.org/abs/1907.04448.
 
Univerzita Karlova | Informační systém UK