Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Deep learning and visualization of models for image captioning and multimodal translation
Název práce v češtině: Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad
Název v anglickém jazyce: Deep learning and visualization of models for image captioning and multimodal translation
Klíčová slova: hluboké učení, vizualizace, multimodální překlad, generování popisků obrázků
Klíčová slova anglicky: deep learning, visualization, multimodal translation, image captioning
Akademický rok vypsání: 2018/2019
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Jindřich Helcl, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 26.09.2018
Datum zadání: 26.09.2018
Datum potvrzení stud. oddělením: 11.06.2020
Datum a čas obhajoby: 07.07.2020 09:00
Datum odevzdání elektronické podoby:04.06.2020
Datum odevzdání tištěné podoby:04.06.2020
Datum proběhlé obhajoby: 07.07.2020
Oponenti: Mgr. Rudolf Rosa, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce bude trénování a analýza modelů hlubokého učení pro generování popisků obrázků (image captioning) a multimodální překlad. Pro trénování modelů pro image captioning budou použity datasety MSCOCO a Flickr30k, experimenty s multimodálním překladem budou využívat dataset Multi30k. Experimentální část prozkoumá vliv metod obohacování obrazových dat na kvalitu popisku / překladu. Součástí implementace bude prostředí pro vizualizaci vah v attention mechanismu během inference pro slova ze všech hypotéz v paprskovém prohledávání. Jako výchozí architektura budou použity rekurentní neuronové sítě, případně novější modely Transformer nebo RNMT+. Experimenty a implementace budou provedeny v rámci toolkitu Neural Monkey.
Seznam odborné literatury
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio.
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.
https://arxiv.org/abs/1502.03044.

Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio.
Neural Machine Translation by Jointly Learning to Align and Translate.
https://arxiv.org/abs/1409.0473.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin.
Attention Is All You Need.
https://arxiv.org/abs/1706.03762.

Mia Xu Chen, Orhan Firat, Ankur Bapna, Melvin Johnson, Wolfgang Macherey, George Foster, Llion Jones, Niki Parmar, Mike Schuster, Zhifeng Chen, Yonghui Wu, Macduff Hughes
The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation
https://arxiv.org/abs/1804.09849

Dokumentace TensorFlow
http://www.tensorflow.org

Dokumentace Neural Monkey
https://neural-monkey.readthedocs.io
https://github.com/ufal/neuralmonkey
 
Univerzita Karlova | Informační systém UK