Forced Alignment via Neural Networks
Název práce v češtině: | Forced alignment pomocí neuronových sítí |
---|---|
Název v anglickém jazyce: | Forced Alignment via Neural Networks |
Klíčová slova: | rozpoznávání řeči, forced alignment, neuronové sítě, framework pro webové aplikace, typescript, kaldi |
Klíčová slova anglicky: | speech recognition, forced alignment, neural networks, web application framework, typescript, kaldi |
Akademický rok vypsání: | 2017/2018 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra distribuovaných a spolehlivých systémů (32-KDSS) |
Vedoucí / školitel: | doc. RNDr. Jan Kofroň, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 20.04.2018 |
Datum zadání: | 23.04.2018 |
Datum potvrzení stud. oddělením: | 27.04.2018 |
Datum a čas obhajoby: | 16.09.2020 09:00 |
Datum odevzdání elektronické podoby: | 03.08.2020 |
Datum odevzdání tištěné podoby: | 30.07.2020 |
Datum proběhlé obhajoby: | 16.09.2020 |
Oponenti: | doc. RNDr. Petr Hnětynka, Ph.D. |
Zásady pro vypracování |
Sledování anglických videí s anglickými titulky se ukazuje být jedním z nejefektivnějších způsobů výuky anglického jazyka. Zvýrazňování slov v čase jejich vyslovení zlepšuje synchronizaci vnímání mluveného a psaného slova a zvyšuje efektivitu učení. Takový způsob časování titulků je znám pod pojmem force alignment. Diplomová práce si dává za cíl vytvořit nástroj pro automatizované časování titulků využívající neuronové sítě. Vstupem algoritmu bude zvuková stopa s transkriptem a výstupem budou časy jednotlivých slov, v nichž byly v dané zvukové stopě vyslovená. Práce bude také poskytovat grafické rozhraní pro vizualizaci výsledků. Algoritmus bude naprogramován v jazycích C++ a Python a grafické rozhraní v EcmaScript 6. |
Seznam odborné literatury |
Python library for constructing high-level artificial neural networks: https://keras.io/
Neural network literature: Abdel-Hamid, O., Mohamed, A. R., Jiang, H., Deng, L., Penn, G., & Yu, D. (2014). Convolutional neural networks for speech recognition. IEEE/ACM Transactions on audio, speech, and language processing. Forced Alignment and Speech Recognition Systems: http://www.phon.ox.ac.uk/jcoleman/BAAP_ASR.pdf |