Deduplikační metody v databázích
Název práce v češtině: | Deduplikační metody v databázích |
---|---|
Název v anglickém jazyce: | Deduplication methods in databases |
Klíčová slova: | Deduplikace, unifikace, matching, kvalita dat |
Klíčová slova anglicky: | Deduplication, unification, matching, data quality |
Akademický rok vypsání: | 2009/2010 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | Mgr. Vladimír Kyjonka |
Řešitel: | skrytý![]() |
Datum přihlášení: | 25.06.2010 |
Datum zadání: | 25.06.2010 |
Datum a čas obhajoby: | 06.09.2010 00:00 |
Datum odevzdání elektronické podoby: | 06.09.2010 |
Datum proběhlé obhajoby: | 06.09.2010 |
Oponenti: | prof. RNDr. Tomáš Skopal, Ph.D. |
Zásady pro vypracování |
Cílem diplomové práce je shrnutí základních kategorií unifikačních metod datových záznamů v rámci hledání duplicit v databázích. Jedná se zejména o metody typu rule-based, distance-based, pravděpodobnostní metody aj. Práce se také zaměří na porovnání výsledků a nároků metod s diskuzí jejich využitelnosti v praxi a možnosti jejich kombinování. Součástí práce je i realizace vhodné metody a diskuze jejích výsledků |
Seznam odborné literatury |
Maydanchik A. (2007): Data quality assessment. Technics Publications, LLC; New Jersey, USA
Redman, T.: Data Quality ? The Field Guide. Digital Press, 2000. 256s. ISBN 1-55558-251-6 Olson, J.: Data Quality ? The Accuracy Dimension. Morgan Kaufman Publisher, 2003. 294s. ISBN 1558608915 R. Baeza-Yates and G. Navarro, Fast Approximate String Matching in a Dictionary.Proc. SPIRE'98. IEEE CS Press |
Předběžná náplň práce |
Unifikace se zabývá rozpoznáním datových záznamů, representujících jeden konkrétní fysický subjekt, v datech, jež vykazují chyby, nepřesnosti a odlišnosti ve formátech, struktuře i obsahu jejich uložení. V praxi se pro to používají dvě hlavní metody, representované různými softwarovými řešeními.
První metoda (označovaná jako ?deterministická?) využívá sémantické analysy dat, aplikaci pravidel a heutistik založených na významových slovnících, gramatikách apod. s využitím různých metod přibližného porovnávání atd. Druhá metoda ((Označovaná jako ?probabilistická?) zkoumá formálně statisticky četnosti textových elementů bez ohledu na jejich semantiku a na základě nich (metodami pravděpodobnosti) vyhodnocuje podobnost jednotlivých záznamů. Výsledkem obou metod je jedno či víceúrovňové sdružení záznamů do skupin, náležejících jednomu konkrétnímu subjektu |