Deduplikační metody v databázích
Thesis title in Czech: | Deduplikační metody v databázích |
---|---|
Thesis title in English: | Deduplication methods in databases |
Key words: | Deduplikace, unifikace, matching, kvalita dat |
English key words: | Deduplication, unification, matching, data quality |
Academic year of topic announcement: | 2009/2010 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | Mgr. Vladimír Kyjonka |
Author: | hidden![]() |
Date of registration: | 25.06.2010 |
Date of assignment: | 25.06.2010 |
Date and time of defence: | 06.09.2010 00:00 |
Date of electronic submission: | 06.09.2010 |
Date of proceeded defence: | 06.09.2010 |
Opponents: | prof. RNDr. Tomáš Skopal, Ph.D. |
Guidelines |
Cílem diplomové práce je shrnutí základních kategorií unifikačních metod datových záznamů v rámci hledání duplicit v databázích. Jedná se zejména o metody typu rule-based, distance-based, pravděpodobnostní metody aj. Práce se také zaměří na porovnání výsledků a nároků metod s diskuzí jejich využitelnosti v praxi a možnosti jejich kombinování. Součástí práce je i realizace vhodné metody a diskuze jejích výsledků |
References |
Maydanchik A. (2007): Data quality assessment. Technics Publications, LLC; New Jersey, USA
Redman, T.: Data Quality ? The Field Guide. Digital Press, 2000. 256s. ISBN 1-55558-251-6 Olson, J.: Data Quality ? The Accuracy Dimension. Morgan Kaufman Publisher, 2003. 294s. ISBN 1558608915 R. Baeza-Yates and G. Navarro, Fast Approximate String Matching in a Dictionary.Proc. SPIRE'98. IEEE CS Press |
Preliminary scope of work |
Unifikace se zabývá rozpoznáním datových záznamů, representujících jeden konkrétní fysický subjekt, v datech, jež vykazují chyby, nepřesnosti a odlišnosti ve formátech, struktuře i obsahu jejich uložení. V praxi se pro to používají dvě hlavní metody, representované různými softwarovými řešeními.
První metoda (označovaná jako ?deterministická?) využívá sémantické analysy dat, aplikaci pravidel a heutistik založených na významových slovnících, gramatikách apod. s využitím různých metod přibližného porovnávání atd. Druhá metoda ((Označovaná jako ?probabilistická?) zkoumá formálně statisticky četnosti textových elementů bez ohledu na jejich semantiku a na základě nich (metodami pravděpodobnosti) vyhodnocuje podobnost jednotlivých záznamů. Výsledkem obou metod je jedno či víceúrovňové sdružení záznamů do skupin, náležejících jednomu konkrétnímu subjektu |