Thesis (Selection of subject)Thesis (Selection of subject)(version: 385)
Thesis details
   Login via CAS
Deduplikační metody v databázích
Thesis title in Czech: Deduplikační metody v databázích
Thesis title in English: Deduplication methods in databases
Key words: Deduplikace, unifikace, matching, kvalita dat
English key words: Deduplication, unification, matching, data quality
Academic year of topic announcement: 2009/2010
Thesis type: diploma thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: Mgr. Vladimír Kyjonka
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 25.06.2010
Date of assignment: 25.06.2010
Date and time of defence: 06.09.2010 00:00
Date of electronic submission:06.09.2010
Date of proceeded defence: 06.09.2010
Opponents: prof. RNDr. Tomáš Skopal, Ph.D.
 
 
 
Guidelines
Cílem diplomové práce je shrnutí základních kategorií unifikačních metod datových záznamů v rámci hledání duplicit v databázích. Jedná se zejména o metody typu rule-based, distance-based, pravděpodobnostní metody aj. Práce se také zaměří na porovnání výsledků a nároků metod s diskuzí jejich využitelnosti v praxi a možnosti jejich kombinování. Součástí práce je i realizace vhodné metody a diskuze jejích výsledků
References
Maydanchik A. (2007): Data quality assessment. Technics Publications, LLC; New Jersey, USA

Redman, T.: Data Quality ? The Field Guide. Digital Press, 2000. 256s. ISBN 1-55558-251-6

Olson, J.: Data Quality ? The Accuracy Dimension. Morgan Kaufman Publisher, 2003. 294s. ISBN 1558608915

R. Baeza-Yates and G. Navarro, Fast Approximate String Matching in a Dictionary.Proc. SPIRE'98. IEEE CS Press
Preliminary scope of work
Unifikace se zabývá rozpoznáním datových záznamů, representujících jeden konkrétní fysický subjekt, v datech, jež vykazují chyby, nepřesnosti a odlišnosti ve formátech, struktuře i obsahu jejich uložení. V praxi se pro to používají dvě hlavní metody, representované různými softwarovými řešeními.
První metoda (označovaná jako ?deterministická?) využívá sémantické analysy dat, aplikaci pravidel a heutistik založených na významových slovnících, gramatikách apod. s využitím různých metod přibližného porovnávání atd.
Druhá metoda ((Označovaná jako ?probabilistická?) zkoumá formálně statisticky četnosti textových elementů bez ohledu na jejich semantiku a na základě nich (metodami pravděpodobnosti) vyhodnocuje podobnost jednotlivých záznamů.
Výsledkem obou metod je jedno či víceúrovňové sdružení záznamů do skupin, náležejících jednomu konkrétnímu subjektu
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html