Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Název práce v češtině: Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Název v anglickém jazyce: Approximate equality of character strings and its application to record linkage in metadata of scientific publications
Klíčová slova: ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikací
Klíčová slova anglicky: record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadata
Akademický rok vypsání: 2018/2019
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav informačních studií a knihovnictví (21-UISK)
Vedoucí / školitel: Jan Dvořák, Dr.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 31.01.2019
Datum zadání: 31.01.2019
Schválení administrátorem: zatím neschvalováno
Datum potvrzení stud. oddělením: 08.03.2019
Datum a čas obhajoby: 08.06.2020 09:00
Datum odevzdání elektronické podoby:05.05.2020
Datum proběhlé obhajoby: 08.06.2020
Odevzdaná/finalizovaná: odevzdaná studentem a finalizovaná
Oponenti: prof. RNDr. Jiří Ivánek, CSc.
 
 
 
Zásady pro vypracování
Diplomant prozkoumá a popíše přístupy k určování přibližné shody a podobnosti znakových řetězců. Popíše minimálně 5 různých metod, mezi nimiž bude Levenštejnova vzdálenost, Jaro-Winklerova vzdálenost a Jaccardův koeficient podobnosti n-gramů. Diplomant popsané metody vyzkouší na úloze ztotožňování metadatových záznamů vědeckých publikací nacházejících se v institucionálním informačním systému o aktuálním výzkumu. Pro odhad úspěšnosti a přesnosti jednotlivých metod použije podmnožinu metadatových záznamů, které lze ztotožnit pomocí spolehlivých identifikátorů, zejména DOI a ISBN. Doporučí vhodné způsoby nasazení uvedených metod.
Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty.

Předběžná osnova:
1. Úvod
2. Ztotožňování záznamů
3. Přibližná shoda znakových řetězců
4. Specifika metadat vědeckých publikací
5. Popis institucionálního systému o aktuálním výzkumu
6. Metoda vyhodnocení úspěšnosti různých metod ztotožňování
7. Výsledek vyhodnocení úspěšnosti různých metod ztotožňování
8. Závěr
Seznam odborné literatury
Winkler, William E. Overview of Record Linkage and Current Research Directions. [výzkumná zpráva] U.S. Census Bureau. Statistical Research Division. 2006.
Atzori, Claudio. GDup : an Integrated, Scalable Big Graph Deduplication System. Doktorská disertace. Univerzita v Pise. 2016.
Hankovec, Jiří. Testování podobnosti vět. Bakalářská práce. Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra informatiky a výpočetní techniky. 2017.
Oracle. UTL_MATCH. Manuálová stránka databáze Oracle 11gR2. Dostupné z https://docs.oracle.com/cd/E18283_01/appdev.112/e16760/u_match.htm.
OpenRefine. [Software] Dostupné zhttps://openrefine.org/.
 
Univerzita Karlova | Informační systém UK