velikost textu

Deep learning and visualization of models for image captioning and multimodal translation

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Deep learning and visualization of models for image captioning and multimodal translation
Název v češtině:
Hluboké učení a vizualizace modelů pro generování popisků obrázků a multimodální překlad
Typ:
Bakalářská práce
Autor:
Bc. Samuel Michalik
Vedoucí:
Mgr. Jindřich Helcl
Oponent:
Mgr. Rudolf Rosa
Id práce:
205540
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (B1801)
Obor studia:
Obecná informatika (IOI)
Přidělovaný titul:
Bc.
Datum obhajoby:
7. 7. 2020
Výsledek obhajoby:
Velmi dobře
Jazyk práce:
Angličtina
Klíčová slova:
hluboké učení, vizualizace, multimodální překlad, generování popisků obrázků
Klíčová slova v angličtině:
deep learning, visualization, multimodal translation, image captioning
Abstrakt:
Název práce: Hluboké Učení a Vizualizace Modelů pro Generování Popisků Obrázků a Multimodální Překlad Autor: Samuel Michalik Ústav: Ústav Formální a Aplikované Lingvistiky Vedoucí bakalářské práce: Mgr. Jindřich Helcl, Ústav Formální a Aplikované Lingvistiky Abstrakt: V posledných rokoch sa paradigma strojového učenia, nazývané hlboké učenie, ukázalo, ako vhodné pre exploitáciu moderného paralelného hardvéru a veľkých datasetov, pomáhajúc tak posunúť vpred hranicu súčasného výzkumu v mnohých odvetviach umelej inteligencie a zároveň nachádzajúc komerčné uplat- nenie. Hlboké učenie umožnuje systémom s jedným trénovacím objektívom riešiť komplikované úlohy cez vytváranie komplexných hierarchických reprezentácií. Ti- eto reprezentácie je však náročné interpretovať. V tejto práci skúmame možnosti interpretovateľnosti vizualizácií attention komponent a beam search dekódovania na úlohách image captioningu a multimodálneho prekladu a za týmto účelom vyvýjame softvérovú aplikáciu – Macaque, ktorá môže bežať ako lokálne, alebo ako online služba. Okrem toho predkladáme novú formulácie attention modulu, ktorú nazývame scaled general attention. Experimentálne porovnávame scaled general attention s ďalšími bežnými attention funkciami na štyroch rôznych ar- chitektúrach, vychádzajúcich z encoder-decoder frameworku na úlohách image captioningu a multimodálneho strojového prekladu. V rámci kvalitatívnej analýzy využívame Macaque. Klíčová slova: hlboké účenie vizualizácie image captioning mutlimodálny preklad iii
Abstract v angličtině:
Title: Deep Learning and Visualization of Models for Image Captioning and Multimodal Translation Author: Samuel Michalik Institute: Institute of Formal and Applied Linguistics Supervisor: Mgr. Jindřich Helcl, Institute of Formal and Applied Linguistics Abstract: In recent years, the machine learning paradigm known as deep learning has proven to be well suited for the exploitation of modern parallel hardware and large datasets, helping to advance the frontier of research in many fields of arti- ficial intelligence and finding succesfull commercial applications. Deep learning allows end-to-end trainable systems to tackle difficult tasks by building complex hierarchical representations. However, these internal representations often avoid easy interpretation. We explore the possibilities of interpretable visualizations of attention components and beam search decoding at the task of image captioning and multimodal translation and build an application – Macaque, that can be run as an online service, to meet this end. Furthermore, we propose a novel attention function formulation, called scaled general attention. We experimentally evalu- ate scaled general attention along common attention functions on four different model architectures based on the encoder-decoder framework at the tasks of im- age captioning and multimodal machine translation. We utilise Macaque during qualitative analysis. Keywords: deep learning vizualisation image captioning multimodal translation iii
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Samuel Michalik 5.69 MB
Stáhnout Příloha k práci Bc. Samuel Michalik 687.05 MB
Stáhnout Abstrakt v českém jazyce Bc. Samuel Michalik 50 kB
Stáhnout Abstrakt anglicky Bc. Samuel Michalik 48 kB
Stáhnout Posudek vedoucího Mgr. Jindřich Helcl 132 kB
Stáhnout Posudek oponenta Mgr. Rudolf Rosa 119 kB
Stáhnout Záznam o průběhu obhajoby RNDr. Filip Zavoral, Ph.D. 152 kB