Neuronové sítě a destilace znalostí
Thesis title in Czech: | Neuronové sítě a destilace znalostí |
---|---|
Thesis title in English: | Neural networks and knowledge distillation |
Key words: | neuronové sítě|strojové učení|destilace znalostí|KL divergence |
English key words: | neural networks|machine learning|knowledge distillation|KL divergence |
Academic year of topic announcement: | 2024/2025 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Department of Probability and Mathematical Statistics (32-KPMS) |
Supervisor: | Mgr. Ondřej Týbl, Ph.D. |
Author: | Bc. Martin Grätzer - assigned and confirmed by the Study Dept. |
Date of registration: | 26.07.2024 |
Date of assignment: | 26.07.2024 |
Confirmed by Study dept. on: | 26.07.2024 |
Guidelines |
Neuronové sítě v aplikacích jako strojové vidění obsahují velké množství parametrů a jsou výpočetně velmi náročné, a proto je často vhodné uvažovat komprimaci znalostí velkého modelu (tzv. učitel) do modelu menšího (tzv. student). Jednou z úspěšných metod je metoda destilace znalostí, kdy model studenta netrénujeme pouze pomocí původních dat, ale použijeme i výstupy již natrénovaného modelu učitele. Ukazuje se, že takto dosáhneme lepších výsledků, než kdybychom trénovali model studenta sám o sobě.
Koncept destilace znalostí byl poprvé navržen v [1], kde k přenosu dochází za pomocí minimalizace KL divergence mezi výstupy učitele a studenta. Ukázalo se, že komplikovanější kritéria učení (např. [2], [3], [4]), kde výstupy učitele vhodně vážíme, vedou k dalšímu zlepšení výsledků. Bylo by však možné uvažovat i kritéria, která vycházejí z obecnějších typů divergence, nebo dokonce uvažovat kritérium, které se v průběhu učení adaptuje podle dosavadních výsledků. Uchazeč(-ka) se zaměří na porovnávání těchto přístupů a součástí práce i bude empirická studie za použití reálných obrázků, kde bude provedeno srovnání úspěšnosti a rychlosti učení. |
References |
[1] Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. In Proceedings of the NIPS Deep Learning and Representation Learning Workshop
[2] Zhao, B., Cui, Q., Song, R., Qiu, Y., & Liang, J. (2022). Decoupled knowledge distillation. In Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition (pp. 11953-11962) [3] Yang, Z., Zeng, A., Li, Z., Zhang, T., Yuan, C., & Li, Y. (2023). From knowledge distillation to self-knowledge distillation: A unified approach with normalized loss and customized soft labels. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 17185-17194). [4] Chennupati, S., Kamani, M. M., Cheng, Z., & Chen, L. (2021). Adaptive distillation: Aggregating knowledge from multiple paths for efficient distillation. In Proceedings of The 32nd British Machine Vision Conference |