Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
SQL analyzér pro datovou linii s podporou více dialektů
Název práce v češtině: SQL analyzér pro datovou linii s podporou více dialektů
Název v anglickém jazyce: SQL parser for data lineage with support for multiple dialects
Klíčová slova: SQL|procedurální SQL|datová linie|překladač|statická analýza kódu
Klíčová slova anglicky: SQL|procedural SQL|data lineage|parser|static code analysis
Akademický rok vypsání: 2021/2022
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Jakub Yaghob, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 26.08.2021
Datum zadání: 30.08.2021
Datum potvrzení stud. oddělením: 29.03.2022
Datum a čas obhajoby: 07.06.2022 10:00
Datum odevzdání elektronické podoby:05.05.2022
Datum odevzdání tištěné podoby:16.05.2022
Datum proběhlé obhajoby: 07.06.2022
Oponenti: doc. RNDr. Pavel Parízek, Ph.D.
 
 
 
Zásady pro vypracování
Mnoho velkých společností se potýká se špatně dokumentovaným SQL kódem. Jeho analýza a zodpovězení jednoduchých otázek, např. jak se do této tabulky dostala tato data, je i pro datového analytika práce na dlouhou dobu. Jedná ze zejména o zjištění datové linie (data lineage) na základě statisíců řádek SQL kódu. Některé stávající nástroje již datovou linii podporují, ale jsou často omezené jen na jeden SQL dialekt. Navíc všechny stávající nástroje nepodporují dynamické SQL dotazy.

Cílem práce je navrhnout modulární nebo rozšiřitelný analyzátor datové linie. Součástí práce je i pilotní implementace analyzátoru pro jeden SQL dialekt. Analyzátor by měl být snadno rozšiřitelný buď pomocí modulů nebo přímo rozšířením zdrojových kódů na další SQL dialekty. Při návrhu analyzátoru se rovněž pokusíme stanovit množinu podporovaných dynamických SQL dotazů, které by bylo možné analyzátorem zpracovávat, a tuto množinu dynamických dotazů pak také analyzovat v pilotní implementaci.

Výstupem analyzátoru je graf datové linie přes všechny nalezené databázové objekty (tabulky a sloupce). Jednotlivé hrany by měly nést odkaz na zdrojový kód, který datovou linii vytvořil, aby datovým analytikům usnadnil úpravy kódu.
Seznam odborné literatury
Gerardus Blokdyk: Data Lineage Metadata A Complete Guide, ISBN 978-0655911548, ‎5STARCooks, 2021
Data Lineage A Complete Guide: ISBN 978-1867425106, The Art of Service - Data Lineage Publishing, 2020
Tomingas, Kalle & Järv, Priit & Tammet, Tanel. (2016). Discovering Data Lineage from Data Warehouse Procedures, 101-110. 10.5220/0006054301010110
Kalle Tomingas, Tanel Tammet, Margus Kliimask. Rule-Based Impact Analysis for Enterprise Business Intelligence, 10th IFIP International Conference on Artificial Intelligence Applications and Innovations (AIAI), Sep 2014, Rhodes, Greece. pp.301-309, 10.1007/978-3-662-44722-2_32
 
Univerzita Karlova | Informační systém UK