Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 392)
Detail práce
   Přihlásit přes CAS
Identifikace skutečných funkčních závislostí
Název práce v češtině: Identifikace skutečných funkčních závislostí
Název v anglickém jazyce: Identification of genuine functional dependencies
Akademický rok vypsání: 2025/2026
Typ práce: diplomová práce
Jazyk práce:
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: Ing. Pavel Koupil, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 17.06.2025
Datum zadání: 18.06.2025
Datum potvrzení stud. oddělením: 18.06.2025
Zásady pro vypracování
Currently, there are a number of approaches for detecting functional dependencies in relational data. These approaches are usually optimized for small data samples, which may lead to the detection of functional dependencies that are only valid on a given sample by chance. In general the set of these functional dependencies may not be valid.

The goal of this thesis is to design an approach that not only detects functional dependencies in the data, but more importantly focuses on eliminating spurious functional dependencies that are only valid in a small sample of the data. A key component of the approach will be the use of so-called negative examples - data records that purposely violate the detected functional dependencies but still correspond to potentially real data. The goal is to keep the number of these negative examples as small as possible, yet eliminate spurious functional dependencies as efficiently as possible.

Furthermore, interaction with domain experts (e.g., crowdsourcing) can play an important role in assessing whether the proposed negative examples correspond to real data values without accidentally disturbing the actual functional dependencies valid in the domain.
Seznam odborné literatury
1) PAPENBROCK, Thorsten, et al. Functional dependency discovery: An experimental evaluation of seven algorithms. Proceedings of the VLDB Endowment, 2015, 8.10: 1082-1093.
2) ABEDJAN, Ziawasch; GOLAB, Lukasz; NAUMANN, Felix. Profiling relational data: a survey. The VLDB Journal, 2015, 24: 557-581.
3) BERGMAN, Moria, et al. Query-oriented data cleaning with oracles. In: Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015. p. 1199-1214.
4) CORMODE, Graham, et al. Estimating the confidence of conditional functional dependencies. In: Proceedings of the 2009 ACM SIGMOD International Conference on Management of data. 2009. p. 469-482.
5) FRANKLIN, Michael J., et al. CrowdDB: answering queries with crowdsourcing. In: Proceedings of the 2011 ACM SIGMOD International Conference on Management of data. 2011. p. 61-72.
Předběžná náplň práce
V současnosti existuje řada přístupů pro detekci funkčních závislostí v relačních datech. Tyto přístupy jsou obvykle optimalizovány pro malé vzorky dat, což může vést k detekci funkčních závislostí, které na daném vzorku platí pouze náhodou. Obecně tyto funkční závislosti nemusí platit.

Cílem této diplomové práce je návrh přístupu, který bude nejen detekovat funkční závislosti v datech, ale především se zaměří na eliminaci falešných funkčních závislostí platných jen v malém vzorku dat. Klíčovou součástí přístupu bude využití tzv. negative examples – datových záznamů, které cíleně porušují detekované funkční závislosti, ale stále odpovídají potenciálně reálným datům. Cílem je, aby množství těchto negative examples bylo co nejmenší, ale přitom co nejefektivněji eliminovalo falešné funkční závislosti.

Důležitou roli může dále hrát interakce s doménovými experty (např. formou tzv. crowdsourcingu), kteří budou posuzovat, zda navrhované negative examples odpovídají reálným datovým hodnotám, aniž by omylem narušily skutečné funkční závislosti platné v dané doméně.

Práci je možné řešit spolu s výzkumným projektem "(AI) Advisor pro identifikaci skutečných funkčních závislostí".
Předběžná náplň práce v anglickém jazyce
Currently, there are a number of approaches for detecting functional dependencies in relational data. These approaches are usually optimized for small data samples, which may lead to the detection of functional dependencies that are only valid on a given sample by chance. In general the set of these functional dependencies may not be valid.

The goal of this thesis is to design an approach that not only detects functional dependencies in the data, but more importantly focuses on eliminating spurious functional dependencies that are only valid in a small sample of the data. A key component of the approach will be the use of so-called negative examples - data records that purposely violate the detected functional dependencies but still correspond to potentially real data. The goal is to keep the number of these negative examples as small as possible, yet eliminate spurious functional dependencies as efficiently as possible.

Furthermore, interaction with domain experts (e.g., crowdsourcing) can play an important role in assessing whether the proposed negative examples correspond to real data values without accidentally disturbing the actual functional dependencies valid in the domain.

The thesis can be carried out in conjunction with a research project "(AI) Advisor to identify genuine functional dependencies".
 
Univerzita Karlova | Informační systém UK