Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Neuronové sítě a destilace znalostí
Thesis title in Czech: Neuronové sítě a destilace znalostí
Thesis title in English: Neural networks and knowledge distillation
Key words: neuronové sítě|strojové učení|destilace znalostí|KL divergence
English key words: neural networks|machine learning|knowledge distillation|KL divergence
Academic year of topic announcement: 2024/2025
Thesis type: diploma thesis
Thesis language:
Department: Department of Probability and Mathematical Statistics (32-KPMS)
Supervisor: Mgr. Ondřej Týbl, Ph.D.
Author: Bc. Martin Grätzer - assigned and confirmed by the Study Dept.
Date of registration: 26.07.2024
Date of assignment: 26.07.2024
Confirmed by Study dept. on: 26.07.2024
Guidelines
Neuronové sítě v aplikacích jako strojové vidění obsahují velké množství parametrů a jsou výpočetně velmi náročné, a proto je často vhodné uvažovat komprimaci znalostí velkého modelu (tzv. učitel) do modelu menšího (tzv. student). Jednou z úspěšných metod je metoda destilace znalostí, kdy model studenta netrénujeme pouze pomocí původních dat, ale použijeme i výstupy již natrénovaného modelu učitele. Ukazuje se, že takto dosáhneme lepších výsledků, než kdybychom trénovali model studenta sám o sobě.

Koncept destilace znalostí byl poprvé navržen v [1], kde k přenosu dochází za pomocí minimalizace KL divergence mezi výstupy učitele a studenta. Ukázalo se, že komplikovanější kritéria učení (např. [2], [3], [4]), kde výstupy učitele vhodně vážíme, vedou k dalšímu zlepšení výsledků. Bylo by však možné uvažovat i kritéria, která vycházejí z obecnějších typů divergence, nebo dokonce uvažovat kritérium, které se v průběhu učení adaptuje podle dosavadních výsledků.

Uchazeč(-ka) se zaměří na porovnávání těchto přístupů a součástí práce i bude empirická studie za použití reálných obrázků, kde bude provedeno srovnání úspěšnosti a rychlosti učení.
References
[1] Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. In Proceedings of the NIPS Deep Learning and Representation Learning Workshop
[2] Zhao, B., Cui, Q., Song, R., Qiu, Y., & Liang, J. (2022). Decoupled knowledge distillation. In Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition (pp. 11953-11962)
[3] Yang, Z., Zeng, A., Li, Z., Zhang, T., Yuan, C., & Li, Y. (2023). From knowledge distillation to self-knowledge distillation: A unified approach with normalized loss and customized soft labels. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 17185-17194).
[4] Chennupati, S., Kamani, M. M., Cheng, Z., & Chen, L. (2021). Adaptive distillation: Aggregating knowledge from multiple paths for efficient distillation. In Proceedings of The 32nd British Machine Vision Conference
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html