Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Použití LLM k vytvoření znalostní databáze nad dokumenty

Název práce v češtině:	Použití LLM k vytvoření znalostní databáze nad dokumenty
Název v anglickém jazyce:	Using LLM to create a knowledge base from documents
Klíčová slova:	natural language processing\|Large Language Models\|retrieval augmented generation\|data cleaning
Klíčová slova anglicky:	zpracování přirozeného textu\|velké jazykové modely\|čištění dat
Akademický rok vypsání:	2024/2025
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	Mgr. Petr Škoda, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	16.02.2025
Datum zadání:	10.03.2025
Datum potvrzení stud. oddělením:	10.03.2025
Datum a čas obhajoby:	20.06.2025 09:00
Datum odevzdání elektronické podoby:	07.05.2025
Datum odevzdání tištěné podoby:	07.05.2025
Datum proběhlé obhajoby:	20.06.2025
Oponenti:	Ing. Pavel Koupil, Ph.D.

Zásady pro vypracování

Nástup Large Language Models (LLM) přináší nové možnosti práce s dokumenty ve velkých společnostech, které mohou zefektivnit jejich vnitřní procesy.
Příkladem může být lepší přístup zaměstnanců k doménové expertíze nebo rychlejší zaškolení nových kolegů.
Základní myšlenkou tohoto přístupu je využití LLM k vytvoření znalostní databáze sloužící jako brána k firemním dokumentům.
Tímto směrem se v budoucnu mohou ubírat například projekty Intelligent Document Understanding či budování knowledge grafů.

Realizace takového projektu vyžaduje dostatečně výkonné LLM a kvalitní data.
Zatímco v případě prvního kritéria můžeme vidět překotný vývoj, datová část problematiky zůstává často zcela opomenuta.
Nízká kvalita dat a nepřipravenost procesů pro jejich efektivní aplikaci tak mohou být hlavní překážkou v úspěšném využití potenciálu LLM.

V rámci této práce student provede analýzu vybraných dokumentů, popíše specifika různých formátů a možné překážky v jejich zpracování.
Na základě této analýzy pak připraví diverzifikované portfolio dokumentů, přičemž důraz bude kladen na finanční reporty.

Student dále identifikuje vhodné LLM modely a přístupy k jejich aplikaci, přičemž implementace bude primárně zaměřena na použití Retrieval-Augmented Generation (RAG).
Cílem bude zpřístupnění znalostí z portfolia dokumentů.
Student následně definuje možné úrovně zpřístupnění informace, například vyhledání vhodných dokumentů pomocí LLM, nebo zpřístupnění obsahu dokumentů skrze konverzaci s LLM.
Student otestuje vhodnost vybraných přístupů v kontextu použití RAG pro různé úrovně zpřístupnění.

V posledním kroku práce student vytvoří Proof of Concept (PoC) řešení, které umožní zpřístupnění informací z uživatelem definovaného portfolia dokumentů pomocí RAG.
Předpokládá se, že PoC řešení bude mít omezení na druhy dokumentů, které bude schopné zpracovat.
Dále se předpokládá, že PoC řešení bude zpřístupňovat dokumenty na jedné z popsaných a otestovaných úrovní.

Seznam odborné literatury

[1] H. Thakkar and A. Manimaran, "Comprehensive Examination of Instruction-Based Language Models: A Comparative Analysis of Mistral-7B and Llama-2-7B," 2023 International Conference on Emerging Research in Computational Science (ICERCS), Coimbatore, India, 2023, pp. 1-6, doi: 10.1109/ICERCS57948.2023.10434081
[2] APA: Frank, U., Kluge, S., & Wagner, G. (2023). Conceptual modeling and large language models: Impressions from first experiments with ChatGPT. EMISA Journal, 18(1), 1-15.
[3] Thakur, A., & Gupta, R. (2024). Introducing Super RAGs in Mistral 8x7B-v1. arXiv. https://doi.org/10.48550/arXiv.2404.08940
[4] FAZLIJA, Gentrit. Toward optimising a retrieval augmented generation pipeline using large language model. 2024.