Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Thesis title in Czech: | Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací |
---|---|
Thesis title in English: | Approximate equality of character strings and its application to record linkage in metadata of scientific publications |
Key words: | ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikací |
English key words: | record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadata |
Academic year of topic announcement: | 2018/2019 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Institute of Information Studies and Librarianship (21-UISK) |
Supervisor: | Jan Dvořák, Dr. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 31.01.2019 |
Date of assignment: | 31.01.2019 |
Administrator's approval: | not processed yet |
Confirmed by Study dept. on: | 08.03.2019 |
Date and time of defence: | 08.06.2020 09:00 |
Date of electronic submission: | 05.05.2020 |
Date of proceeded defence: | 08.06.2020 |
Submitted/finalized: | committed by student and finalized |
Opponents: | prof. RNDr. Jiří Ivánek, CSc. |
Guidelines |
Diplomant prozkoumá a popíše přístupy k určování přibližné shody a podobnosti znakových řetězců. Popíše minimálně 5 různých metod, mezi nimiž bude Levenštejnova vzdálenost, Jaro-Winklerova vzdálenost a Jaccardův koeficient podobnosti n-gramů. Diplomant popsané metody vyzkouší na úloze ztotožňování metadatových záznamů vědeckých publikací nacházejících se v institucionálním informačním systému o aktuálním výzkumu. Pro odhad úspěšnosti a přesnosti jednotlivých metod použije podmnožinu metadatových záznamů, které lze ztotožnit pomocí spolehlivých identifikátorů, zejména DOI a ISBN. Doporučí vhodné způsoby nasazení uvedených metod. Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty. Předběžná osnova: 1. Úvod 2. Ztotožňování záznamů 3. Přibližná shoda znakových řetězců 4. Specifika metadat vědeckých publikací 5. Popis institucionálního systému o aktuálním výzkumu 6. Metoda vyhodnocení úspěšnosti různých metod ztotožňování 7. Výsledek vyhodnocení úspěšnosti různých metod ztotožňování 8. Závěr |
References |
Winkler, William E. Overview of Record Linkage and Current Research Directions. [výzkumná zpráva] U.S. Census Bureau. Statistical Research Division. 2006. Atzori, Claudio. GDup : an Integrated, Scalable Big Graph Deduplication System. Doktorská disertace. Univerzita v Pise. 2016. Hankovec, Jiří. Testování podobnosti vět. Bakalářská práce. Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra informatiky a výpočetní techniky. 2017. Oracle. UTL_MATCH. Manuálová stránka databáze Oracle 11gR2. Dostupné z https://docs.oracle.com/cd/E18283_01/appdev.112/e16760/u_match.htm. OpenRefine. [Software] Dostupné zhttps://openrefine.org/. |