Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací
Název práce v češtině: | Přibližná shoda znakových řetězců a její aplikace na ztotožňování metadat vědeckých publikací |
---|---|
Název v anglickém jazyce: | Approximate equality of character strings and its application to record linkage in metadata of scientific publications |
Klíčová slova: | ztotožňování záznamů|přibližná shoda znakových řetězců|deduplikace|fuzzy matching|zpracování a klasifikace dat|správa databází|metadata publikací |
Klíčová slova anglicky: | record matching|approximate string matching|deduplication|fuzzy matching|data processing and classification|database management|publication metadata |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav informačních studií a knihovnictví (21-UISK) |
Vedoucí / školitel: | Jan Dvořák, Dr. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 31.01.2019 |
Datum zadání: | 31.01.2019 |
Schválení administrátorem: | zatím neschvalováno |
Datum potvrzení stud. oddělením: | 08.03.2019 |
Datum a čas obhajoby: | 08.06.2020 09:00 |
Datum odevzdání elektronické podoby: | 05.05.2020 |
Datum proběhlé obhajoby: | 08.06.2020 |
Odevzdaná/finalizovaná: | odevzdaná studentem a finalizovaná |
Oponenti: | prof. RNDr. Jiří Ivánek, CSc. |
Zásady pro vypracování |
Diplomant prozkoumá a popíše přístupy k určování přibližné shody a podobnosti znakových řetězců. Popíše minimálně 5 různých metod, mezi nimiž bude Levenštejnova vzdálenost, Jaro-Winklerova vzdálenost a Jaccardův koeficient podobnosti n-gramů. Diplomant popsané metody vyzkouší na úloze ztotožňování metadatových záznamů vědeckých publikací nacházejících se v institucionálním informačním systému o aktuálním výzkumu. Pro odhad úspěšnosti a přesnosti jednotlivých metod použije podmnožinu metadatových záznamů, které lze ztotožnit pomocí spolehlivých identifikátorů, zejména DOI a ISBN. Doporučí vhodné způsoby nasazení uvedených metod. Diplomová práce bude připravena v souladu s platnými vnitřními předpisy FF UK a dalšími metodickými pokyny a normativními dokumenty. Předběžná osnova: 1. Úvod 2. Ztotožňování záznamů 3. Přibližná shoda znakových řetězců 4. Specifika metadat vědeckých publikací 5. Popis institucionálního systému o aktuálním výzkumu 6. Metoda vyhodnocení úspěšnosti různých metod ztotožňování 7. Výsledek vyhodnocení úspěšnosti různých metod ztotožňování 8. Závěr |
Seznam odborné literatury |
Winkler, William E. Overview of Record Linkage and Current Research Directions. [výzkumná zpráva] U.S. Census Bureau. Statistical Research Division. 2006. Atzori, Claudio. GDup : an Integrated, Scalable Big Graph Deduplication System. Doktorská disertace. Univerzita v Pise. 2016. Hankovec, Jiří. Testování podobnosti vět. Bakalářská práce. Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra informatiky a výpočetní techniky. 2017. Oracle. UTL_MATCH. Manuálová stránka databáze Oracle 11gR2. Dostupné z https://docs.oracle.com/cd/E18283_01/appdev.112/e16760/u_match.htm. OpenRefine. [Software] Dostupné zhttps://openrefine.org/. |