Forced Alignment via Neural Networks
Thesis title in Czech: | Forced alignment pomocí neuronových sítí |
---|---|
Thesis title in English: | Forced Alignment via Neural Networks |
Key words: | rozpoznávání řeči, forced alignment, neuronové sítě, framework pro webové aplikace, typescript, kaldi |
English key words: | speech recognition, forced alignment, neural networks, web application framework, typescript, kaldi |
Academic year of topic announcement: | 2017/2018 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Department of Distributed and Dependable Systems (32-KDSS) |
Supervisor: | doc. RNDr. Jan Kofroň, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 20.04.2018 |
Date of assignment: | 23.04.2018 |
Confirmed by Study dept. on: | 27.04.2018 |
Date and time of defence: | 16.09.2020 09:00 |
Date of electronic submission: | 03.08.2020 |
Date of submission of printed version: | 30.07.2020 |
Date of proceeded defence: | 16.09.2020 |
Opponents: | doc. RNDr. Petr Hnětynka, Ph.D. |
Guidelines |
Sledování anglických videí s anglickými titulky se ukazuje být jedním z nejefektivnějších způsobů výuky anglického jazyka. Zvýrazňování slov v čase jejich vyslovení zlepšuje synchronizaci vnímání mluveného a psaného slova a zvyšuje efektivitu učení. Takový způsob časování titulků je znám pod pojmem force alignment. Diplomová práce si dává za cíl vytvořit nástroj pro automatizované časování titulků využívající neuronové sítě. Vstupem algoritmu bude zvuková stopa s transkriptem a výstupem budou časy jednotlivých slov, v nichž byly v dané zvukové stopě vyslovená. Práce bude také poskytovat grafické rozhraní pro vizualizaci výsledků. Algoritmus bude naprogramován v jazycích C++ a Python a grafické rozhraní v EcmaScript 6. |
References |
Python library for constructing high-level artificial neural networks: https://keras.io/
Neural network literature: Abdel-Hamid, O., Mohamed, A. R., Jiang, H., Deng, L., Penn, G., & Yu, D. (2014). Convolutional neural networks for speech recognition. IEEE/ACM Transactions on audio, speech, and language processing. Forced Alignment and Speech Recognition Systems: http://www.phon.ox.ac.uk/jcoleman/BAAP_ASR.pdf |