Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Thesis title in Czech: Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Thesis title in English: Approximate equality of character strings and its application to record linkage in metadata of scientific publications
Key words: ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikací
English key words: record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadata
Academic year of topic announcement: 2018/2019
Thesis type: diploma thesis
Thesis language: čeština
Department: Institute of Information Studies and Librarianship (21-UISK)
Supervisor: Jan Dvořák, Dr.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 31.01.2019
Date of assignment: 31.01.2019
Administrator's approval: not processed yet
Confirmed by Study dept. on: 08.03.2019
Date and time of defence: 08.06.2020 09:00
Date of electronic submission:05.05.2020
Date of proceeded defence: 08.06.2020
Submitted/finalized: committed by student and finalized
Opponents: prof. RNDr. Jiří Ivánek, CSc.
 
 
 
Guidelines
Diplomant prozkoumá a popíše přístupy k určování přibližné shody a podobnosti znakových řetězců. Popíše minimálně 5 různých metod, mezi nimiž bude Levenštejnova vzdálenost, Jaro-Winklerova vzdálenost a Jaccardův koeficient podobnosti n-gramů. Diplomant popsané metody vyzkouší na úloze ztotožňování metadatových záznamů vědeckých publikací nacházejících se v institucionálním informačním systému o aktuálním výzkumu. Pro odhad úspěšnosti a přesnosti jednotlivých metod použije podmnožinu metadatových záznamů, které lze ztotožnit pomocí spolehlivých identifikátorů, zejména DOI a ISBN. Doporučí vhodné způsoby nasazení uvedených metod.
Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty.

Předběžná osnova:
1. Úvod
2. Ztotožňování záznamů
3. Přibližná shoda znakových řetězců
4. Specifika metadat vědeckých publikací
5. Popis institucionálního systému o aktuálním výzkumu
6. Metoda vyhodnocení úspěšnosti různých metod ztotožňování
7. Výsledek vyhodnocení úspěšnosti různých metod ztotožňování
8. Závěr
References
Winkler, William E. Overview of Record Linkage and Current Research Directions. [výzkumná zpráva] U.S. Census Bureau. Statistical Research Division. 2006.
Atzori, Claudio. GDup : an Integrated, Scalable Big Graph Deduplication System. Doktorská disertace. Univerzita v Pise. 2016.
Hankovec, Jiří. Testování podobnosti vět. Bakalářská práce. Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra informatiky a výpočetní techniky. 2017.
Oracle. UTL_MATCH. Manuálová stránka databáze Oracle 11gR2. Dostupné z https://docs.oracle.com/cd/E18283_01/appdev.112/e16760/u_match.htm.
OpenRefine. [Software] Dostupné zhttps://openrefine.org/.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html