Analýza a vizualizácia správania jazykového modelu GPT-2
Thesis title in thesis language (Slovak): | Analýza a vizualizácia správania jazykového modelu GPT-2 |
---|---|
Thesis title in Czech: | Analýza a vizualizace chování jazykového modelu GPT-2 |
Thesis title in English: | Analysis and visualization of the GPT-2 language model |
Key words: | transformer|jazykový model|GPT-2|vizualizace |
English key words: | transformer|language model|GPT-2|visualization |
Academic year of topic announcement: | 2021/2022 |
Thesis type: | diploma thesis |
Thesis language: | slovenština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. David Mareček, Ph.D. |
Author: | hidden![]() |
Date of registration: | 18.11.2021 |
Date of assignment: | 13.01.2022 |
Confirmed by Study dept. on: | 23.02.2022 |
Date and time of defence: | 07.06.2022 09:00 |
Date of electronic submission: | 05.05.2022 |
Date of submission of printed version: | 05.05.2022 |
Date of proceeded defence: | 07.06.2022 |
Opponents: | Mgr. Rudolf Rosa, Ph.D. |
Guidelines |
Student se seznámí s jazykovým modelem GPT-2, který se používá pro automatické generování přirozených textů, a s jeho implementací v knihovně "transformers" od Huggingface (https://huggingface.co/transformers/). Tento jazykový model je v současné době velmi masivně využíván, jeho uživatelé mají však jen velmi omezené možnosti zjistit, proč daný model vygeneroval právě takový text. Existující nástroje na vizualizaci např. "attentions" sice existují (Vig, 2019), ale jsou nepřehledné, protože zobrazují příliš mnoho závislostí mezi tokeny přes všechny hlavy a vrstvy sítě transformer.
Cílem práce bude vytvořit uživatelsky přívětivou vizualizaci chování modelu GPT-2, která zkusí poskytnout informace proč byla modelem vygenerována právě taková slova a která slova z kontextu je nejvíce ovlivnila. Na vstupu bude daný (finetunovaný) GPT-2 model a text, který tento model vygeneroval. Výstupem bude vizualizace chování tohoto modelu na zadaném textu. Jak pravděpodobné bylo vygenerované slovo ve srovnání z ostatními slovy? Na kterých předchozích slovech (subwordech, větách) nově vygenerované slovo opravdu záleží? Jednou z možností, jak odhalit slova, na kterých generování závisí, může být například daná slova vymazat nebo nahradit na základě jazykového modelu jiným hodícím se slovem a měřit pak míru poklesu pravděpodobnosti generovaného slova. Další možností může být například použití "Attention Flow" v Transformeru (Abnar and Zuidema, 2020). Součástí práce bude i analýza chování GPT-2 na konkrétním natrénovaném modelu a datech. |
References |
https://jalammar.github.io/illustrated-gpt2/
https://huggingface.co/transformers/ https://towardsdatascience.com/openai-gpt-2-understanding-language-generation-through-visualization-8252f683b2f8 Samira Abnar, Willem Zuidema: Quantifying Attention Flow in Transformers. In: Proceedings of ACL 2020 Jesse Vig: A Multiscale Visualization of Attention in the Transformer Model. In: Proceedings of ACL 2019 Alec Radford: Language Models are Unsupervised Multitask Learners. 2019 |