Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 393)
Detail práce
   Přihlásit přes CAS
Sběratel informací o výkonu dotazování v multi-modelových databázových systémech
Název práce v češtině: Sběratel informací o výkonu dotazování v multi-modelových databázových systémech
Název v anglickém jazyce: Collector of information about query performance in multi-model database systems
Klíčová slova: Databázové metriky|Mutli-modelová data|Výkon dotazů|Relační databáze|Grafové databáze|Dokumentové databáze|Datová sada
Klíčová slova anglicky: Database metrics|Mutli-model data|Query performance|Relational databases|Graph databases|Document databases|Dataset
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: Ing. Pavel Koupil, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 26.10.2023
Datum zadání: 26.10.2023
Datum potvrzení stud. oddělením: 27.10.2023
Datum a čas obhajoby: 04.09.2025 09:00
Datum odevzdání elektronické podoby:17.07.2025
Datum odevzdání tištěné podoby:17.07.2025
Datum proběhlé obhajoby: 04.09.2025
Oponenti: Mgr. Jáchym Bártík
 
 
 
Zásady pro vypracování
There exist a number of optimization techniques for querying over relational data that are built on machine learning. However, there are currently no similar approaches for multi-model data which combine features of multiple data models, not only relational but also e.g. document and graph models. Nevertheless, in order to apply machine learning to multi-model data, it is necessary to have a suitable dataset on which to train the model. Currently, unfortunately, no suitable dataset exists.

The objective of this thesis is to create a suitable dataset on which we can train a model to optimize querying over multi-model data. The student will first analyze existing datasets that are used to train approaches for optimizing query evaluation over relational data. Alternatively, the student will analyze existing tools that extract statistical information from database systems and determine their applicability with respect to data collection for model training. Next, he/she will determine the attributes of the dataset and create a tool that will record appropriate data from database systems and store it in a collection for model training.
Seznam odborné literatury
Lu, Jiaheng, and Irena Holubová. "Multi-model Data Management: What's New and What's Next?." Proceeding of the 20th international conference on extended databases. 2017.

Holubova, Irena, Pavel Koupil, and Jiaheng Lu. "Self-Adapting Design and Maintenance of Multi-Model Databases." Proceedings of the 26th International Database Engineered Applications Symposium. 2022.

Li, Guoliang, Xuanhe Zhou, and Lei Cao. "AI meets database: AI4DB and DB4AI." Proceedings of the 2021 International Conference on Management of Data. 2021.

Zhou, Xuanhe, et al. "Dbmind: A self-driving platform in opengauss." Proceedings of the VLDB Endowment 14.12 (2021): 2743-2746.

https://db-engines.com/en/ranking
Předběžná náplň práce
Existuje řada optimalizačních technik pro dotazování se nad relačními daty, které jsou postaveny na strojovém učení. V současné době ale neexistují podobné přístupy pro multi-modelová data, která kombinují vlastnosti více datových modelů, a to nejen relačního, ale také např. dokumentového a grafového modelu. Nicméně, abychom mohli strojové učení aplikovat i na multi-modelová data, je nutné mít vhodnou datovou sadu, na které model natrénujeme. V současné době, bohužel, žádná vhodná datová sada neexistuje.

Cílem této práce je vytvoření vhodné datové sady, na které bychom mohli trénovat model pro optimalizaci dotazování se nad multi-modelovými daty. Student nejprve provede analýzu existujících datových sad, které se používají pro trénování přístupů pro optimalizaci vyhodnocování dotazů nad relačními daty. Případně provede analýzu existujících nástrojů, které zaznamenávají statistické informace z databázových systémů, a určí jejich použitelnost s ohledem na sběr dat pro trénování modelu. Následně určí atributy datové sady a vytvoří nástroj, který bude z databázových systémů zaznamenávat vhodná data a ukládat je do kolekce pro trénování modelu.

Jako vhodná data můžeme považovat např. informace o struktuře dat, statistická data o uložených záznamech, informace o vykonávaném dotazu, run-time vlastnosti vyhodnocování dotazu, plán provedení dotazu a další.
 
Univerzita Karlova | Informační systém UK