SQL analyzér pro datovou linii s podporou více dialektů
Název práce v češtině: | SQL analyzér pro datovou linii s podporou více dialektů |
---|---|
Název v anglickém jazyce: | SQL parser for data lineage with support for multiple dialects |
Klíčová slova: | SQL|procedurální SQL|datová linie|překladač|statická analýza kódu |
Klíčová slova anglicky: | SQL|procedural SQL|data lineage|parser|static code analysis |
Akademický rok vypsání: | 2021/2022 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Jakub Yaghob, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 26.08.2021 |
Datum zadání: | 30.08.2021 |
Datum potvrzení stud. oddělením: | 29.03.2022 |
Datum a čas obhajoby: | 07.06.2022 10:00 |
Datum odevzdání elektronické podoby: | 05.05.2022 |
Datum odevzdání tištěné podoby: | 16.05.2022 |
Datum proběhlé obhajoby: | 07.06.2022 |
Oponenti: | doc. RNDr. Pavel Parízek, Ph.D. |
Zásady pro vypracování |
Mnoho velkých společností se potýká se špatně dokumentovaným SQL kódem. Jeho analýza a zodpovězení jednoduchých otázek, např. jak se do této tabulky dostala tato data, je i pro datového analytika práce na dlouhou dobu. Jedná ze zejména o zjištění datové linie (data lineage) na základě statisíců řádek SQL kódu. Některé stávající nástroje již datovou linii podporují, ale jsou často omezené jen na jeden SQL dialekt. Navíc všechny stávající nástroje nepodporují dynamické SQL dotazy.
Cílem práce je navrhnout modulární nebo rozšiřitelný analyzátor datové linie. Součástí práce je i pilotní implementace analyzátoru pro jeden SQL dialekt. Analyzátor by měl být snadno rozšiřitelný buď pomocí modulů nebo přímo rozšířením zdrojových kódů na další SQL dialekty. Při návrhu analyzátoru se rovněž pokusíme stanovit množinu podporovaných dynamických SQL dotazů, které by bylo možné analyzátorem zpracovávat, a tuto množinu dynamických dotazů pak také analyzovat v pilotní implementaci. Výstupem analyzátoru je graf datové linie přes všechny nalezené databázové objekty (tabulky a sloupce). Jednotlivé hrany by měly nést odkaz na zdrojový kód, který datovou linii vytvořil, aby datovým analytikům usnadnil úpravy kódu. |
Seznam odborné literatury |
Gerardus Blokdyk: Data Lineage Metadata A Complete Guide, ISBN 978-0655911548, 5STARCooks, 2021
Data Lineage A Complete Guide: ISBN 978-1867425106, The Art of Service - Data Lineage Publishing, 2020 Tomingas, Kalle & Järv, Priit & Tammet, Tanel. (2016). Discovering Data Lineage from Data Warehouse Procedures, 101-110. 10.5220/0006054301010110 Kalle Tomingas, Tanel Tammet, Margus Kliimask. Rule-Based Impact Analysis for Enterprise Business Intelligence, 10th IFIP International Conference on Artificial Intelligence Applications and Innovations (AIAI), Sep 2014, Rhodes, Greece. pp.301-309, 10.1007/978-3-662-44722-2_32 |