Analýza a vizualizácia správania jazykového modelu GPT-2
Název práce v jazyce práce (slovenština): | Analýza a vizualizácia správania jazykového modelu GPT-2 |
---|---|
Název práce v češtině: | Analýza a vizualizace chování jazykového modelu GPT-2 |
Název v anglickém jazyce: | Analysis and visualization of the GPT-2 language model |
Klíčová slova: | transformer|jazykový model|GPT-2|vizualizace |
Klíčová slova anglicky: | transformer|language model|GPT-2|visualization |
Akademický rok vypsání: | 2021/2022 |
Typ práce: | diplomová práce |
Jazyk práce: | slovenština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. David Mareček, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 18.11.2021 |
Datum zadání: | 13.01.2022 |
Datum potvrzení stud. oddělením: | 23.02.2022 |
Datum a čas obhajoby: | 07.06.2022 09:00 |
Datum odevzdání elektronické podoby: | 05.05.2022 |
Datum odevzdání tištěné podoby: | 05.05.2022 |
Datum proběhlé obhajoby: | 07.06.2022 |
Oponenti: | Mgr. Rudolf Rosa, Ph.D. |
Zásady pro vypracování |
Student se seznámí s jazykovým modelem GPT-2, který se používá pro automatické generování přirozených textů, a s jeho implementací v knihovně "transformers" od Huggingface (https://huggingface.co/transformers/). Tento jazykový model je v současné době velmi masivně využíván, jeho uživatelé mají však jen velmi omezené možnosti zjistit, proč daný model vygeneroval právě takový text. Existující nástroje na vizualizaci např. "attentions" sice existují (Vig, 2019), ale jsou nepřehledné, protože zobrazují příliš mnoho závislostí mezi tokeny přes všechny hlavy a vrstvy sítě transformer.
Cílem práce bude vytvořit uživatelsky přívětivou vizualizaci chování modelu GPT-2, která zkusí poskytnout informace proč byla modelem vygenerována právě taková slova a která slova z kontextu je nejvíce ovlivnila. Na vstupu bude daný (finetunovaný) GPT-2 model a text, který tento model vygeneroval. Výstupem bude vizualizace chování tohoto modelu na zadaném textu. Jak pravděpodobné bylo vygenerované slovo ve srovnání z ostatními slovy? Na kterých předchozích slovech (subwordech, větách) nově vygenerované slovo opravdu záleží? Jednou z možností, jak odhalit slova, na kterých generování závisí, může být například daná slova vymazat nebo nahradit na základě jazykového modelu jiným hodícím se slovem a měřit pak míru poklesu pravděpodobnosti generovaného slova. Další možností může být například použití "Attention Flow" v Transformeru (Abnar and Zuidema, 2020). Součástí práce bude i analýza chování GPT-2 na konkrétním natrénovaném modelu a datech. |
Seznam odborné literatury |
https://jalammar.github.io/illustrated-gpt2/
https://huggingface.co/transformers/ https://towardsdatascience.com/openai-gpt-2-understanding-language-generation-through-visualization-8252f683b2f8 Samira Abnar, Willem Zuidema: Quantifying Attention Flow in Transformers. In: Proceedings of ACL 2020 Jesse Vig: A Multiscale Visualization of Attention in the Transformer Model. In: Proceedings of ACL 2019 Alec Radford: Language Models are Unsupervised Multitask Learners. 2019 |