Automatický expresivní čtený projev
Název práce v češtině: | Automatický expresivní čtený projev |
---|---|
Název v anglickém jazyce: | Automatic Expressive Reading |
Klíčová slova: | Generativní modelování, prosodie, rozpoznávání řeči |
Klíčová slova anglicky: | Generative modeling, prosody, speech recognition |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Jan Hajič, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 09.05.2019 |
Datum zadání: | 10.05.2019 |
Datum potvrzení stud. oddělením: | 21.06.2019 |
Datum a čas obhajoby: | 05.09.2019 09:00 |
Datum odevzdání elektronické podoby: | 19.07.2019 |
Datum odevzdání tištěné podoby: | 19.07.2019 |
Datum proběhlé obhajoby: | 05.09.2019 |
Oponenti: | Mgr. Jindřich Libovický, Ph.D. |
Zásady pro vypracování |
Jednou z kategorií verbálního projevu je předčítání, a jednou jeho podkategorií je předčítání expresivní, kdy je podkladový text poezie či prózy. Fenomén audioknih v posledních letech ilustruje sílu, kterou tento zdánlivě zastralý postup orální transmise kultury a kulturní identity stále má: především pro efektivní recepci poezie může být expresivní čtený projev zásadní. Zatímco generování poetického textu samotného již bylo vyzkoušeno mnohokrát, dokonce i v českém prostředí, na tento performativní modus poezie se zatím zaměřilo pouze málo prací.
Účinné předčítání vyžaduje určitý cit pro prozodii: práce s časem, hlasitostí a intonací řeči. Tento cit je obtížné popsat explicitně; množství nahrávek čtených textů vydané pod otevřenými licencemi však umožňuje nově zkoumat expresivní vlastnosti čteného projevu pomocí statistických metod. Především pro poezii, ve které je třeba respektovat vnitřní rytmické a metrické vztahy v textu jako určitou kostru, se však jedná o obtížný problém. Tato práce si klade za cíl vyzkoušet možnosti moderních modelů strojového učení, především těch založených na hlubokém učení, pro generování předčítaného projevu: vstupem je text, výstupem je sada prozodických rysů s textem zarovnaná. Aplikací příslušných prozodických rysů na text v systému Text-To-Speech by pak mělo být "strojové předčítání", nebo -- skrz vhodnou vizualizaci -- návod pro působivé čtení vstupního textu. |
Seznam odborné literatury |
Delmonte, Rodolfo, and Ciprian Bacalu. "SPARSAR: a System for Poetry Automatic Rhythm and Style AnalyzeR." Speech and Language Technology in Education. 2013.
Delmonte, Rodolfo. "Visualizing poetry with SPARSAR–visual maps from poetic content." Proceedings of the Fourth Workshop on Computational Linguistics for Literature. 2015. Cowie, R., et al. "The prosodic correlates of expressive reading." Proceedings of the 14th ICPhS, San Francisco. 1999. Bolanos, Daniel, et al. "Automatic assessment of expressive oral reading." Speech Communication 55.2 (2013): 221-236. Bolaños, Daniel, et al. "Human and automated assessment of oral reading fluency." Journal of educational psychology 105.4 (2013): 1142. Greene, Erica, et al. "Automatic Analysis of Rhythmic Poetry with Applications to Generation and Translation." Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing: 524–533, MIT, Massachusetts, USA, 9-11 October 2010 |