Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 341)
Detail práce
   Přihlásit přes CAS
Automatické generování obrázků a jejich využití jako trénovacích dat
Název práce v češtině: Automatické generování obrázků a jejich využití jako trénovacích dat
Název v anglickém jazyce: Automatic generation of images and their usage as training data
Klíčová slova: generování obrázků, zpracování přirozeného jazyka, image captioning
Klíčová slova anglicky: image generation, natural language processing, image captioning
Akademický rok vypsání: 2019/2020
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Rudolf Rosa, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 20.09.2019
Datum zadání: 01.11.2019
Datum potvrzení stud. oddělením: 11.11.2019
Datum a čas obhajoby: 07.07.2020 09:00
Datum odevzdání elektronické podoby:03.06.2020
Datum odevzdání tištěné podoby:03.06.2020
Datum proběhlé obhajoby: 07.07.2020
Oponenti: Mgr. Jindřich Helcl, Ph.D.
 
 
 
Zásady pro vypracování
Cílem bakalářské práce bude řešení problému automatického generování obrázků. Vstupem je věta v přirozeném jazyce popisující daný obrázek a výstupem je vygenerovaný obrázek, který by měl co nejvíce odpovídat zadané vstupní větě. Vstup bude v anglickém jazyce.

Generování obrázků bude probíhat na základě pravidel. Věta bude rozebrána podle určitých vzorů a vztahů mezi slovy, a následně bude vygenerován obrázek složený z jednotlivých malých obrázků, odpovídající vstupnímu popisu. Jednotlivé obrázky se budou stahovat z internetu pomocí REST API.

Vzniklá aplikace se následně použije jako generátor obrázků pro trénování neuronové sítě pro úlohu image captioningu, tj. automatického generování popisků k obrázkům. Součástí práce bude zhodnocení, zda trénování na takto uměle vytvořených datech zlepšuje kvalitu image captioningu.
Seznam odborné literatury
- STRAKA, Milan; HAJIČ, Jan; STRAKOVÁ, Jana. UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, POS tagging and parsing. In: Proceedings of the tenth international conference on language resources and evaluation (LREC 2016). 2016. p. 4290-4297.
- PLUMMER, Bryan A., et al. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. In: Proceedings of the IEEE international conference on computer vision. 2015. p. 2641-2649.
- XU, Kelvin, et al. Show, attend and tell: Neural image caption generation with visual attention. In: International conference on machine learning. 2015. p. 2048-2057.
- MANSIMOV, Elman, et al. Generating images from captions with attention. arXiv preprint arXiv:1511.02793, 2015.
- ZHANG, Han, et al. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision. 2017. p. 5907-5915.
- Flickr API documentation. https://www.flickr.com/services/api/
- C# Guide. https://docs.microsoft.com/en-us/dotnet/csharp/
 
Univerzita Karlova | Informační systém UK