Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Analýza a vizualizácia správania jazykového modelu GPT-2

Thesis title in thesis language (Slovak):	Analýza a vizualizácia správania jazykového modelu GPT-2
Thesis title in Czech:	Analýza a vizualizace chování jazykového modelu GPT-2
Thesis title in English:	Analysis and visualization of the GPT-2 language model
Key words:	transformer\|jazykový model\|GPT-2\|vizualizace
English key words:	transformer\|language model\|GPT-2\|visualization
Academic year of topic announcement:	2021/2022
Thesis type:	diploma thesis
Thesis language:	slovenština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	RNDr. David Mareček, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	18.11.2021
Date of assignment:	13.01.2022
Confirmed by Study dept. on:	23.02.2022
Date and time of defence:	07.06.2022 09:00
Date of electronic submission:	05.05.2022
Date of submission of printed version:	05.05.2022
Date of proceeded defence:	07.06.2022
Opponents:	Mgr. Rudolf Rosa, Ph.D.

Guidelines

Student se seznámí s jazykovým modelem GPT-2, který se používá pro automatické generování přirozených textů, a s jeho implementací v knihovně "transformers" od Huggingface (https://huggingface.co/transformers/). Tento jazykový model je v současné době velmi masivně využíván, jeho uživatelé mají však jen velmi omezené možnosti zjistit, proč daný model vygeneroval právě takový text. Existující nástroje na vizualizaci např. "attentions" sice existují (Vig, 2019), ale jsou nepřehledné, protože zobrazují příliš mnoho závislostí mezi tokeny přes všechny hlavy a vrstvy sítě transformer.

Cílem práce bude vytvořit uživatelsky přívětivou vizualizaci chování modelu GPT-2, která zkusí poskytnout informace proč byla modelem vygenerována právě taková slova a která slova z kontextu je nejvíce ovlivnila. Na vstupu bude daný (finetunovaný) GPT-2 model a text, který tento model vygeneroval. Výstupem bude vizualizace chování tohoto modelu na zadaném textu. Jak pravděpodobné bylo vygenerované slovo ve srovnání z ostatními slovy? Na kterých předchozích slovech (subwordech, větách) nově vygenerované slovo opravdu záleží?

Jednou z možností, jak odhalit slova, na kterých generování závisí, může být například daná slova vymazat nebo nahradit na základě jazykového modelu jiným hodícím se slovem a měřit pak míru poklesu pravděpodobnosti generovaného slova. Další možností může být například použití "Attention Flow" v Transformeru (Abnar and Zuidema, 2020).

Součástí práce bude i analýza chování GPT-2 na konkrétním natrénovaném modelu a datech.

References

https://jalammar.github.io/illustrated-gpt2/
https://huggingface.co/transformers/
https://towardsdatascience.com/openai-gpt-2-understanding-language-generation-through-visualization-8252f683b2f8
Samira Abnar, Willem Zuidema: Quantifying Attention Flow in Transformers. In: Proceedings of ACL 2020
Jesse Vig: A Multiscale Visualization of Attention in the Transformer Model. In: Proceedings of ACL 2019
Alec Radford: Language Models are Unsupervised Multitask Learners. 2019