Lokalizace a připůsobení anglického benchmarku SuperGLUE pro hodnocení kompetence textových modelů umělé inteligence v oblasti českého jazyka
Název práce v češtině: | Lokalizace a připůsobení anglického benchmarku SuperGLUE pro hodnocení kompetence textových modelů umělé inteligence v oblasti českého jazyka |
---|---|
Název v anglickém jazyce: | Localisation and adaptation of the English benchmark SuperGLUE for assessing the competence of text-based artificial intelligence models in the Czech language domain |
Klíčová slova: | Jazykové modely AI|zpracování přirozeného jazyka|benchmark SuperGLUE|zpracování češtiny|vícejazyčné hodnocení AI|jazykově specifické benchmarkování |
Klíčová slova anglicky: | AI Language Models|Natural Language Processing|SuperGLUE Benchmark|Czech Language Processing|Multilingual AI Evaluation|Language-Specific Benchmarking |
Akademický rok vypsání: | 2023/2024 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav informačních studií - studia nových médií (21-UISKNM) |
Vedoucí / školitel: | Mgr. Josef Šlerka, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 02.03.2024 |
Datum zadání: | 02.03.2024 |
Schválení administrátorem: | bylo schváleno |
Datum potvrzení stud. oddělením: | 02.03.2024 |
Datum a čas obhajoby: | 22.01.2025 00:00 |
Datum odevzdání elektronické podoby: | 15.12.2024 |
Datum proběhlé obhajoby: | 22.01.2025 |
Odevzdaná/finalizovaná: | odevzdaná studentem a finalizovaná |
Oponenti: | Mgr. Petr Kubiš |
Zásady pro vypracování |
Diplomová práce se věnuje nástrojům pro hodnocení jazykových kompetencí běžně dostupných textových generativních modelů umělé inteligence (AI) založených na technologii zpracování přirozeného jazyka (NLP). Tyto modely jsou schopné generovat výstupy včeštině, ale neexistuje vhodný benchmark, který by umožnil vyhodnocení kvality takového výstupu v souladu s pravidlyčeskéhopravopisu. Výzkumná otázka a cíl práce:V jaké kvalitěběžně dostupné generativní textové AI modely zpracovávají český jazyk? Cílem práce je přeložit a přizpůsobit existující benchmark pro anglický jazyk s názvemSuperGLUEpro vytvořenínovéhobenchmarku vhodného pro hodnocení jazykovýchkompetencív češtině.Výsledkemprácebudedatasetjazykových otázek, odpovědí a metodiky pro vyhodnocení výsledků. Metodologie a plán řešení: Analýza úloh v benchmarkuSuperGLUEa zkoumání možnosti jejich přizpůsobení pro český jazyk. Zvolení těch úloh, které jsou relevantní pro český jazyk a jeho pravidla. Přímý překlad vybraných úlohdatasetudo češtiny. Přizpůsobení přeloženéhodatasetupodle českého lingvistického, kulturního a společenského kontextu. Po sestavení třídatasetů(anglický benchmarkSuperGlue,datasetjazykových úloh přeložených z anglického do českého jazyka a adaptovanýdatasetjazykových otázek) proběhneprvotní testování adaptovaných úloh s vybranými jazykovými generativními AI modely a analýza získaných výsledků. Komparativní analýza výsledků získaných z testování AI modelů na přeloženém a adaptovaném českémdatasetus výsledky z anglického benchmarkuSuperGLUE. Diskuzea závěr; zhodnocení zjištěných výsledků a diskuse o jejich důležitosti pro další vývoj a vylepšení AI modelů pro český jazyk. Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty. |
Seznam odborné literatury |
WANG, Alex; PRUKSACHATKUN, Yada; NANGIA, Nikita; SINGH, Amanpreet; LEVY, Omer et al., 2019. SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. Online.Dostupnétakéz: https://arxiv.org/abs/1905.00537. LEVÝ, Jiří, HONZÍK, Jiří (ed.), 1996. Českéteoriepřekladu:vývojpřekladatelskýchteoriíametodvčeskéliteratuře. 2.vydání. Praha: IvoŽelezný. ISBN 80-237-1735-9. ZAGAR, Aleš a ROBNIK-ŠIKONJA, Marko, 2022. SloveneSuperGLUEBenchmark: Translation and Evaluation. Online.Proceedings of the 13th Conference on Language Resources and Evaluation, s. 2058-2065.Dostupnéz: https://aclanthology.org/2022.lrec-1.221. AUGUSTYNIAK, Łukasz; TAGOWSKI, Kamil; SAWCZYN, Albert; JANIAK, Denis; BARTUSIAK, Roman et al., 2022. This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish. Online.Dostupnéz: https://arxiv.org/abs/2211.13112. SABOL, Radoslav; HORÁK, Aleš a MEDVEĎ, Marek, 2022. Czech Question Answering with Extended SQAD v3.0 Benchmark Dataset. Online. Brno:Masarykovauniverzita. Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural LanguagesProcessing, s.99-108.Dostupnéz: https://nlp.fi.muni.cz/raslan/2019/paper14-medved.pdf. |