Deep learning and visualization of models for image captioning and multimodal translation
Název práce v češtině: | Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad |
---|---|
Název v anglickém jazyce: | Deep learning and visualization of models for image captioning and multimodal translation |
Klíčová slova: | hluboké učení, vizualizace, multimodální překlad, generování popisků obrázků |
Klíčová slova anglicky: | deep learning, visualization, multimodal translation, image captioning |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Jindřich Helcl, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 26.09.2018 |
Datum zadání: | 26.09.2018 |
Datum potvrzení stud. oddělením: | 11.06.2020 |
Datum a čas obhajoby: | 07.07.2020 09:00 |
Datum odevzdání elektronické podoby: | 04.06.2020 |
Datum odevzdání tištěné podoby: | 04.06.2020 |
Datum proběhlé obhajoby: | 07.07.2020 |
Oponenti: | Mgr. Rudolf Rosa, Ph.D. |
Zásady pro vypracování |
Cílem práce bude trénování a analýza modelů hlubokého učení pro generování popisků obrázků (image captioning) a multimodální překlad. Pro trénování modelů pro image captioning budou použity datasety MSCOCO a Flickr30k, experimenty s multimodálním překladem budou využívat dataset Multi30k. Experimentální část prozkoumá vliv metod obohacování obrazových dat na kvalitu popisku / překladu. Součástí implementace bude prostředí pro vizualizaci vah v attention mechanismu během inference pro slova ze všech hypotéz v paprskovém prohledávání. Jako výchozí architektura budou použity rekurentní neuronové sítě, případně novější modely Transformer nebo RNMT+. Experimenty a implementace budou provedeny v rámci toolkitu Neural Monkey. |
Seznam odborné literatury |
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio.
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. https://arxiv.org/abs/1502.03044. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. https://arxiv.org/abs/1409.0473. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need. https://arxiv.org/abs/1706.03762. Mia Xu Chen, Orhan Firat, Ankur Bapna, Melvin Johnson, Wolfgang Macherey, George Foster, Llion Jones, Niki Parmar, Mike Schuster, Zhifeng Chen, Yonghui Wu, Macduff Hughes The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation https://arxiv.org/abs/1804.09849 Dokumentace TensorFlow http://www.tensorflow.org Dokumentace Neural Monkey https://neural-monkey.readthedocs.io https://github.com/ufal/neuralmonkey |