Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Analýza a vizualizácia správania jazykového modelu GPT-2
Název práce v jazyce práce (slovenština): Analýza a vizualizácia správania jazykového modelu GPT-2
Název práce v češtině: Analýza a vizualizace chování jazykového modelu GPT-2
Název v anglickém jazyce: Analysis and visualization of the GPT-2 language model
Klíčová slova: transformer|jazykový model|GPT-2|vizualizace
Klíčová slova anglicky: transformer|language model|GPT-2|visualization
Akademický rok vypsání: 2021/2022
Typ práce: diplomová práce
Jazyk práce: slovenština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. David Mareček, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 18.11.2021
Datum zadání: 13.01.2022
Datum potvrzení stud. oddělením: 23.02.2022
Datum a čas obhajoby: 07.06.2022 09:00
Datum odevzdání elektronické podoby:05.05.2022
Datum odevzdání tištěné podoby:05.05.2022
Datum proběhlé obhajoby: 07.06.2022
Oponenti: Mgr. Rudolf Rosa, Ph.D.
 
 
 
Zásady pro vypracování
Student se seznámí s jazykovým modelem GPT-2, který se používá pro automatické generování přirozených textů, a s jeho implementací v knihovně "transformers" od Huggingface (https://huggingface.co/transformers/). Tento jazykový model je v současné době velmi masivně využíván, jeho uživatelé mají však jen velmi omezené možnosti zjistit, proč daný model vygeneroval právě takový text. Existující nástroje na vizualizaci např. "attentions" sice existují (Vig, 2019), ale jsou nepřehledné, protože zobrazují příliš mnoho závislostí mezi tokeny přes všechny hlavy a vrstvy sítě transformer.

Cílem práce bude vytvořit uživatelsky přívětivou vizualizaci chování modelu GPT-2, která zkusí poskytnout informace proč byla modelem vygenerována právě taková slova a která slova z kontextu je nejvíce ovlivnila. Na vstupu bude daný (finetunovaný) GPT-2 model a text, který tento model vygeneroval. Výstupem bude vizualizace chování tohoto modelu na zadaném textu. Jak pravděpodobné bylo vygenerované slovo ve srovnání z ostatními slovy? Na kterých předchozích slovech (subwordech, větách) nově vygenerované slovo opravdu záleží?

Jednou z možností, jak odhalit slova, na kterých generování závisí, může být například daná slova vymazat nebo nahradit na základě jazykového modelu jiným hodícím se slovem a měřit pak míru poklesu pravděpodobnosti generovaného slova. Další možností může být například použití "Attention Flow" v Transformeru (Abnar and Zuidema, 2020).

Součástí práce bude i analýza chování GPT-2 na konkrétním natrénovaném modelu a datech.
Seznam odborné literatury
https://jalammar.github.io/illustrated-gpt2/
https://huggingface.co/transformers/
https://towardsdatascience.com/openai-gpt-2-understanding-language-generation-through-visualization-8252f683b2f8
Samira Abnar, Willem Zuidema: Quantifying Attention Flow in Transformers. In: Proceedings of ACL 2020
Jesse Vig: A Multiscale Visualization of Attention in the Transformer Model. In: Proceedings of ACL 2019
Alec Radford: Language Models are Unsupervised Multitask Learners. 2019
 
Univerzita Karlova | Informační systém UK