velikost textu

Multilingual speech synthesis

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Multilingual speech synthesis
Název v češtině:
Vícejazyčná syntéza řeči
Typ:
Diplomová práce
Autor:
Bc. Tomáš Nekvinda
Vedoucí:
Mgr. Ondřej Dušek
Oponent:
Mgr. Nino Peterek, Ph.D.
Id práce:
222537
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (N1801)
Obor studia:
Umělá inteligence (IUI)
Přidělovaný titul:
Mgr.
Datum obhajoby:
8. 7. 2020
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
syntéza řeči, vícejazyčnost, zpracování přirozeného jazyka, hluboké učení
Klíčová slova v angličtině:
text-to-speech, speech synthesis, multilinguality, natural language processing, deep learning
Abstrakt:
Abstrakt Tato práce se zabývá vícejazyčnou syntézou řeči. Porovnali jsme tři odlišné modely, které jsou založeny na Tacotronu. Tyto modely se liší především v přístupu ke sdílení infor- mací a parametrů mezi jazyky. Dva z nich navazují na současné systémy pro vícejazyčnou konverzi textu na řeč. První využívá plně sdíleného enkodéru a doménově specifického klasifikátoru, který je modifikovaný za účelem odstranění informací, které závisí na syn- tetizovaném hlase, z enkodéru. Druhý model používá separátní enkodér pro každý jazyk. V této práci navrhujeme nový přístup, který kombinuje nejlepší z obou zmíněných metod. Díky technikám metaučení umožnujě efektivní sdílení parametrů při zachování flexibility. Tyto tři modely porovnáváme na dvou úlohách. Jedna z nich se zaměřuje na sdružené vícejazyčné učení na deseti jazycích a odhaluje možnosti porovnávaných modelů sdílet znalosti mezi jazyky. Druhá se zabývá syntézou vět, které obsahují výrazy z několika různých jazyků. Dokládáme, že náš nový přístup umožuje efektivní sdílení informace mezi jazyky a že dle subjektivního hodnocení produkuje přirozenější řeč bez častých přeřeků a chyb ve výslovnosti.
Abstract v angličtině:
Abstract This work explores multilingual speech synthesis. We compare three models based on Tacotron that utilize various levels of parameter sharing. Two of them follow recent multilingual text-to-speech systems. The first one makes use of a fully-shared encoder and an adversarial classifier that removes speaker-dependent information from the encoder. The other uses language-specific encoders. We introduce a new approach that combines the best of both previous methods. It enables effective parameter sharing using a meta- learning technique, preserves encoder’s flexibility, and actively removes speaker-specific information in the encoder. We compare the three models on two tasks. The first one aims at joint multilingual training on ten languages and reveals their knowledge-sharing abilities. The second concerns code-switching. We show that our model effectively shares information across languages, and according to a subjective evaluation test, it produces more natural and accurate code-switching speech.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Tomáš Nekvinda 4.74 MB
Stáhnout Příloha k práci Bc. Tomáš Nekvinda 433.07 MB
Stáhnout Abstrakt v českém jazyce Bc. Tomáš Nekvinda 62 kB
Stáhnout Abstrakt anglicky Bc. Tomáš Nekvinda 60 kB
Stáhnout Posudek vedoucího Mgr. Ondřej Dušek 43 kB
Stáhnout Posudek oponenta Mgr. Nino Peterek, Ph.D. 52 kB
Stáhnout Záznam o průběhu obhajoby prof. RNDr. Roman Barták, Ph.D. 153 kB