Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Deduplikační metody v databázích
Název práce v češtině: Deduplikační metody v databázích
Název v anglickém jazyce: Deduplication methods in databases
Klíčová slova: Deduplikace, unifikace, matching, kvalita dat
Klíčová slova anglicky: Deduplication, unification, matching, data quality
Akademický rok vypsání: 2009/2010
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: Mgr. Vladimír Kyjonka
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 25.06.2010
Datum zadání: 25.06.2010
Datum a čas obhajoby: 06.09.2010 00:00
Datum odevzdání elektronické podoby:06.09.2010
Datum proběhlé obhajoby: 06.09.2010
Oponenti: prof. RNDr. Tomáš Skopal, Ph.D.
 
 
 
Zásady pro vypracování
Cílem diplomové práce je shrnutí základních kategorií unifikačních metod datových záznamů v rámci hledání duplicit v databázích. Jedná se zejména o metody typu rule-based, distance-based, pravděpodobnostní metody aj. Práce se také zaměří na porovnání výsledků a nároků metod s diskuzí jejich využitelnosti v praxi a možnosti jejich kombinování. Součástí práce je i realizace vhodné metody a diskuze jejích výsledků
Seznam odborné literatury
Maydanchik A. (2007): Data quality assessment. Technics Publications, LLC; New Jersey, USA

Redman, T.: Data Quality ? The Field Guide. Digital Press, 2000. 256s. ISBN 1-55558-251-6

Olson, J.: Data Quality ? The Accuracy Dimension. Morgan Kaufman Publisher, 2003. 294s. ISBN 1558608915

R. Baeza-Yates and G. Navarro, Fast Approximate String Matching in a Dictionary.Proc. SPIRE'98. IEEE CS Press
Předběžná náplň práce
Unifikace se zabývá rozpoznáním datových záznamů, representujících jeden konkrétní fysický subjekt, v datech, jež vykazují chyby, nepřesnosti a odlišnosti ve formátech, struktuře i obsahu jejich uložení. V praxi se pro to používají dvě hlavní metody, representované různými softwarovými řešeními.
První metoda (označovaná jako ?deterministická?) využívá sémantické analysy dat, aplikaci pravidel a heutistik založených na významových slovnících, gramatikách apod. s využitím různých metod přibližného porovnávání atd.
Druhá metoda ((Označovaná jako ?probabilistická?) zkoumá formálně statisticky četnosti textových elementů bez ohledu na jejich semantiku a na základě nich (metodami pravděpodobnosti) vyhodnocuje podobnost jednotlivých záznamů.
Výsledkem obou metod je jedno či víceúrovňové sdružení záznamů do skupin, náležejících jednomu konkrétnímu subjektu
 
Univerzita Karlova | Informační systém UK