Thesis (Selection of subject)Thesis (Selection of subject)(version: 393)
Thesis details
   Login via CAS
   
Sběratel informací o výkonu dotazování v multi-modelových databázových systémech
Thesis title in Czech: Sběratel informací o výkonu dotazování v multi-modelových databázových systémech
Thesis title in English: Collector of information about query performance in multi-model database systems
Key words: Databázové metriky|Mutli-modelová data|Výkon dotazů|Relační databáze|Grafové databáze|Dokumentové databáze|Datová sada
English key words: Database metrics|Mutli-model data|Query performance|Relational databases|Graph databases|Document databases|Dataset
Academic year of topic announcement: 2023/2024
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: Ing. Pavel Koupil, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 26.10.2023
Date of assignment: 26.10.2023
Confirmed by Study dept. on: 27.10.2023
Date and time of defence: 04.09.2025 09:00
Date of electronic submission:17.07.2025
Date of submission of printed version:17.07.2025
Date of proceeded defence: 04.09.2025
Opponents: Mgr. Jáchym Bártík
 
 
 
Guidelines
There exist a number of optimization techniques for querying over relational data that are built on machine learning. However, there are currently no similar approaches for multi-model data which combine features of multiple data models, not only relational but also e.g. document and graph models. Nevertheless, in order to apply machine learning to multi-model data, it is necessary to have a suitable dataset on which to train the model. Currently, unfortunately, no suitable dataset exists.

The objective of this thesis is to create a suitable dataset on which we can train a model to optimize querying over multi-model data. The student will first analyze existing datasets that are used to train approaches for optimizing query evaluation over relational data. Alternatively, the student will analyze existing tools that extract statistical information from database systems and determine their applicability with respect to data collection for model training. Next, he/she will determine the attributes of the dataset and create a tool that will record appropriate data from database systems and store it in a collection for model training.
References
Lu, Jiaheng, and Irena Holubová. "Multi-model Data Management: What's New and What's Next?." Proceeding of the 20th international conference on extended databases. 2017.

Holubova, Irena, Pavel Koupil, and Jiaheng Lu. "Self-Adapting Design and Maintenance of Multi-Model Databases." Proceedings of the 26th International Database Engineered Applications Symposium. 2022.

Li, Guoliang, Xuanhe Zhou, and Lei Cao. "AI meets database: AI4DB and DB4AI." Proceedings of the 2021 International Conference on Management of Data. 2021.

Zhou, Xuanhe, et al. "Dbmind: A self-driving platform in opengauss." Proceedings of the VLDB Endowment 14.12 (2021): 2743-2746.

https://db-engines.com/en/ranking
Preliminary scope of work
Existuje řada optimalizačních technik pro dotazování se nad relačními daty, které jsou postaveny na strojovém učení. V současné době ale neexistují podobné přístupy pro multi-modelová data, která kombinují vlastnosti více datových modelů, a to nejen relačního, ale také např. dokumentového a grafového modelu. Nicméně, abychom mohli strojové učení aplikovat i na multi-modelová data, je nutné mít vhodnou datovou sadu, na které model natrénujeme. V současné době, bohužel, žádná vhodná datová sada neexistuje.

Cílem této práce je vytvoření vhodné datové sady, na které bychom mohli trénovat model pro optimalizaci dotazování se nad multi-modelovými daty. Student nejprve provede analýzu existujících datových sad, které se používají pro trénování přístupů pro optimalizaci vyhodnocování dotazů nad relačními daty. Případně provede analýzu existujících nástrojů, které zaznamenávají statistické informace z databázových systémů, a určí jejich použitelnost s ohledem na sběr dat pro trénování modelu. Následně určí atributy datové sady a vytvoří nástroj, který bude z databázových systémů zaznamenávat vhodná data a ukládat je do kolekce pro trénování modelu.

Jako vhodná data můžeme považovat např. informace o struktuře dat, statistická data o uložených záznamech, informace o vykonávaném dotazu, run-time vlastnosti vyhodnocování dotazu, plán provedení dotazu a další.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html