Restoring and improving the technical quality of audio recordings using machine learning methods
Název práce v češtině: | Restaurování a vylepšování technické kvality zvukových nahrávek metodami strojového učení |
---|---|
Název v anglickém jazyce: | Restoring and improving the technical quality of audio recordings using machine learning methods |
Klíčová slova: | Hluboká neuronová síť|audio|Konvoluční neuronová síť|TensorFlow|kvalita |
Klíčová slova anglicky: | Deep Neural Network|audio|Convolutional Neural Network|TensorFlow|quality |
Akademický rok vypsání: | 2020/2021 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Nino Peterek, Ph.D. |
Řešitel: | Mgr. Adam Lechovský - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 07.05.2021 |
Datum zadání: | 07.05.2021 |
Datum potvrzení stud. oddělením: | 25.05.2021 |
Datum a čas obhajoby: | 07.09.2022 09:00 |
Datum odevzdání elektronické podoby: | 21.07.2022 |
Datum odevzdání tištěné podoby: | 25.07.2022 |
Datum proběhlé obhajoby: | 07.09.2022 |
Oponenti: | Mgr. et Mgr. Ondřej Dušek, Ph.D. |
Zásady pro vypracování |
The thesis will focus on the use of current artificial intelligence machine learning methods to improve the quality of variously damaged or dynamically imbalanced recordings.
Open source audio data and artificially degraded versions of the data will be used for training and evaluation. The thesis will use evaluation procedures to objectively and subjectively capture the technical quality of audio recordings. |
Seznam odborné literatury |
Kamath, U., Liu, J., Whitaker, J.: Deep learning for NLP and speech recognition. Springer, 2019. doi: 10.1007/978-3-030-14596-5
https://link.springer.com/book/10.1007/978-3-030-14596-5 Watanabe, Shinji, et al.: New Era for Robust Speech Recognition. Springer, 2017. doi: 10.1007/978-3-319-64680-0 https://link.springer.com/book/10.1007/978-3-319-64680-0 Jiang, L., Hu, R., Wang, X., Zhang, M.: Low bitrates audio bandwidth extension using a deep auto-encoder. In: Ho, Y.-S., Sang, J., Ro, Y.M., Kim, J., Wu, F. (eds.) PCM 2015. LNCS, vol. 9314, pp. 528–537. Springer, Heidelberg, 2015. doi: 10.1007/978-3-319-24075-6_51 https://link.springer.com/chapter/10.1007/978-3-319-24075-6_51 Mack, W. and Habets, E. A. P.: Declipping Speech Using Deep Filtering. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2019, pp. 200-204. doi: 10.1109/WASPAA.2019.8937287. https://ieeexplore.ieee.org/abstract/document/8937287 Naithani, G., Parascandolo, G., Barker, T., Pontoppidan, N. H., Virtanen, T.: Low-latency sound source separation using deep neural networks. 2016 IEEE Global Conference on Signal and Information Processing (GlobalSIP), 2016, pp. 272-276. doi: 10.1109/GlobalSIP.2016.7905846. https://ieeexplore.ieee.org/abstract/document/7905846 |