Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Odvození business rules z multi-modelových dat s využitím pozitivních a negativních vzorků
Thesis title in Czech: Odvození business rules z multi-modelových dat s využitím pozitivních a negativních vzorků
Thesis title in English: Inference of business rules from multi-model data utilizing positive and negative samples
Academic year of topic announcement: 2024/2025
Thesis type: diploma thesis
Thesis language:
Department: Department of Software Engineering (32-KSI)
Supervisor: Ing. Pavel Koupil, Ph.D.
Author:
Guidelines
Many database management systems do not require an explicit schema for the data they store. However the presence of an explicit schema, including various constraints, is still necessary, especially in the case of rules that define different aspects of the business

There exist a number of approaches that infer the schema from already stored data, however, most of these approaches only consider so-called positive samples, i.e., data stored in database systems. However, negative samples, i.e., a set of examples not respecting a common structure or rules, can improve the inferred schema and rules.

The author first performs a classification of business rules that are inferable from schema-mixed multi-model data. Based on this, he/she proposes a set of heuristic approaches that take into account also negative samples. Finally, the author implements and experimentally verifies the proposed rules.
References
Lu, Jiaheng, and Irena Holubová. "Multi-model databases: a new journey to handle the variety of data." ACM Computing Surveys (CSUR) 52.3 (2019): 1-38.

Koupil, Pavel, Sebastián Hricko, and Irena Holubová. "A universal approach for multi-model schema inference." Journal of Big Data 9.1 (2022): 1-46.

Dupont, Pierre. "Regular grammatical inference from positive and negative samples by genetic search: the GIG method." International Colloquium on Grammatical Inference. Springer, Berlin, Heidelberg, 1994.

https://www.omg.org/spec/OCL/2.4/PDF
Preliminary scope of work
Mnoho systémů pro správu databází nevyžaduje explicitní schéma pro ukládaná data. Přítomnost explicitního schématu, včetně různých omezení, je však stále nezbytná, zejména v případě pravidel, která definují různé aspekty podnikání.

Existuje řada přístupů odvozujících schéma z již uložených dat, nicméně většina těchto přístupů uvažuje pouze tzv. pozitivní vzorky, tj. data uložená v databázových systémech. Nicméně, negativní vzorky, tj. množina příkladů nerespektujících společnou strukturu nebo pravidla, mohou zkvalitnit odvozené schéma a pravidla.

Autor nejprve provede klasifikaci obchodních pravidel, která jsou odvoditelná z tzv. schema-mixed multi-modelových dat. Na jejím základě navrhne sadu heuristických přístupů zohledňujících i negativní vzorky. Nakonec autor implementuje a experimentálně ověří navržená pravidla.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html