Použití LLM k vytvoření znalostní databáze nad dokumenty
Název práce v češtině: | Použití LLM k vytvoření znalostní databáze nad dokumenty |
---|---|
Název v anglickém jazyce: | Using LLM to create a knowledge base from documents |
Klíčová slova: | natural language processing|Large Language Models|retrieval augmented generation|data cleaning |
Klíčová slova anglicky: | zpracování přirozeného textu|velké jazykové modely|čištění dat |
Akademický rok vypsání: | 2024/2025 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | Mgr. Petr Škoda, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 16.02.2025 |
Datum zadání: | 10.03.2025 |
Datum potvrzení stud. oddělením: | 10.03.2025 |
Datum a čas obhajoby: | 20.06.2025 09:00 |
Datum odevzdání elektronické podoby: | 07.05.2025 |
Datum odevzdání tištěné podoby: | 07.05.2025 |
Datum proběhlé obhajoby: | 20.06.2025 |
Oponenti: | Ing. Pavel Koupil, Ph.D. |
Zásady pro vypracování |
Nástup Large Language Models (LLM) přináší nové možnosti práce s dokumenty ve velkých společnostech, které mohou zefektivnit jejich vnitřní procesy.
Příkladem může být lepší přístup zaměstnanců k doménové expertíze nebo rychlejší zaškolení nových kolegů. Základní myšlenkou tohoto přístupu je využití LLM k vytvoření znalostní databáze sloužící jako brána k firemním dokumentům. Tímto směrem se v budoucnu mohou ubírat například projekty Intelligent Document Understanding či budování knowledge grafů. Realizace takového projektu vyžaduje dostatečně výkonné LLM a kvalitní data. Zatímco v případě prvního kritéria můžeme vidět překotný vývoj, datová část problematiky zůstává často zcela opomenuta. Nízká kvalita dat a nepřipravenost procesů pro jejich efektivní aplikaci tak mohou být hlavní překážkou v úspěšném využití potenciálu LLM. V rámci této práce student provede analýzu vybraných dokumentů, popíše specifika různých formátů a možné překážky v jejich zpracování. Na základě této analýzy pak připraví diverzifikované portfolio dokumentů, přičemž důraz bude kladen na finanční reporty. Student dále identifikuje vhodné LLM modely a přístupy k jejich aplikaci, přičemž implementace bude primárně zaměřena na použití Retrieval-Augmented Generation (RAG). Cílem bude zpřístupnění znalostí z portfolia dokumentů. Student následně definuje možné úrovně zpřístupnění informace, například vyhledání vhodných dokumentů pomocí LLM, nebo zpřístupnění obsahu dokumentů skrze konverzaci s LLM. Student otestuje vhodnost vybraných přístupů v kontextu použití RAG pro různé úrovně zpřístupnění. V posledním kroku práce student vytvoří Proof of Concept (PoC) řešení, které umožní zpřístupnění informací z uživatelem definovaného portfolia dokumentů pomocí RAG. Předpokládá se, že PoC řešení bude mít omezení na druhy dokumentů, které bude schopné zpracovat. Dále se předpokládá, že PoC řešení bude zpřístupňovat dokumenty na jedné z popsaných a otestovaných úrovní. |
Seznam odborné literatury |
[1] H. Thakkar and A. Manimaran, "Comprehensive Examination of Instruction-Based Language Models: A Comparative Analysis of Mistral-7B and Llama-2-7B," 2023 International Conference on Emerging Research in Computational Science (ICERCS), Coimbatore, India, 2023, pp. 1-6, doi: 10.1109/ICERCS57948.2023.10434081
[2] APA: Frank, U., Kluge, S., & Wagner, G. (2023). Conceptual modeling and large language models: Impressions from first experiments with ChatGPT. EMISA Journal, 18(1), 1-15. [3] Thakur, A., & Gupta, R. (2024). Introducing Super RAGs in Mistral 8x7B-v1. arXiv. https://doi.org/10.48550/arXiv.2404.08940 [4] FAZLIJA, Gentrit. Toward optimising a retrieval augmented generation pipeline using large language model. 2024. |