velikost textu

Discovering and Creating Relations among CSV Columns Using Linked Data Knowledge Bases

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Discovering and Creating Relations among CSV Columns Using Linked Data Knowledge Bases
Název v češtině:
Hledání a vytváření relací mezi sloupci v CSV souborech s využitím Linked Dat
Typ:
Diplomová práce
Autor:
Václav Brodec
Vedoucí:
Mgr. Martin Nečaský, Ph.D.
Oponent:
RNDr. Martin Svoboda
Id práce:
176221
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (N1801)
Obor studia:
Softwarové a datové inženýrství (ISDI)
Přidělovaný titul:
Mgr.
Datum obhajoby:
4. 2. 2019
Výsledek obhajoby:
Velmi dobře
Jazyk práce:
Angličtina
Klíčová slova:
CSV, linked data, otevřená data, relace, sémantická interpretace tabulek
Klíčová slova v angličtině:
CSV, linked data, open data, relations, semantic table interpretation
Abstrakt:
Velké množství dat produkovaných vládními organizacemi je přístupné ve formě tabulek kódovaných jako CSV soubory. Sémantická interpretace tabulek (STI) usiluje o jejich převod na linked data, s cílem zvýšit jejich užitečnost. Jelikož obsahem jsou převážně statistická data, sestávající se z číselných hodnot, je žádoucí disponovat efektivními prostředky na interpretaci relací mezi entitami a jejich číselnými atributy tak, jak jsou zachyceny v tabulkách. Soudobé obecné STI nástroje odvozují anotace sloupců téměř výlučně z číselných předmětů RDF trojic, které jsou již přítomné ve znalostních bázích obsahujících linked data. A proto nedokáží rozpoznat neznámé vstupní hodnoty, díky čemuž disponují jen slabou podporou pro své návrhy. Na druhou stranu známé techniky zaměřující se na číselné hodnoty mají též své neduhy. Buďto je jejich znalostní pozadí konstruováno top-down způsobem z obecných znalostních bází, které nepostihují doménu vstupu, a tak neobsahují blízké hodnoty v rozpoznatelné podobě. A nebo nevyužívají kontextu poskytovaného obecnými STI nástroji. Důsledkem toho zaměňují anotace sloupců obsahujících podobné hodnoty, ale zcela odlišného významu. Zmíněné nedostatky jsou v rámci této diplomové práce řešeny aplikací bottom-up přístupu ke konstrukci modelu znalostního pozadí, s využitím již zpracovaných CSV souborů tak, jak navrhuje Neumaier a kolektiv, a jako komplement jejich předchozí práce. Navíc je užíváno základní korekce prohledávání směrem k hodnotám sdílejícím podobný kontext. Algoritmus je evaluován na dostupném standardním datasetu a datasetech sebraných z rakouských katalogů otevřených dat. Navržené řešení dosahuje v těchto scénářích nasazení významného zlepšení vůči reprezentantům obecného i na číselné hodnoty specializovaného přístupu. Vlastní příspěvek práce je publikován jako samostatná služba, která zároveň slouží jako základ pro rozšíření existujícího STI nástroje Odalic. V této sestavě je pak podporována uživatelská odezva a ruční přidávání relací diskutovaného typu.
Abstract v angličtině:
A large amount of data produced by governmental organizations is accessible in the form of tables encoded as CSV files. Semantic table interpretation (STI) strives to transform them into linked data in order to make them more useful. As significant portion of the tabular data is of statistical nature, and therefore comprises predominantly of numeric values, it is paramount to possess effective means for interpreting relations between the entities and their numeric properties as captured in the tables. As the current general-purpose STI tools infer the annotations of the columns almost exclusively from numeric objects of RDF triples already present in the linked data knowledge bases, they are unable to handle unknown input values. This leaves them with weak evidence for their suggestions. On the other hand, known techniques focusing on the numeric values also have their downsides. Either their background knowledge representation is built in a top-down manner from general knowledge bases, which do not reflect the domain of input and in turn do not contain the values in a recognizable form. Or they do not make use of context provided by the general STI tools. This causes them to mismatch annotations of columns consisting from similar values, but of entirely different meaning. This thesis addresses the described issues by applying a bottom-up approach to construction of the background knowledge model, utilizing already processed CSV files, as suggested by and complementary to preceding work of Neumaier et al. On top of that it employs a basic form of steering of the search toward values sharing similar context. The proposed algorithm is evaluated on the available gold standard dataset and compiled datasets originating from Austrian open data catalogs. The solution achieves significant improvement over the current representatives of both the general and number-focused approach in these scenarios. The contribution is presented as a stand- alone service, which supports an extension to existing STI tool Odalic. This setup facilitates user feedback and additional manual creation of the researched relations.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Václav Brodec 2.99 MB
Stáhnout Příloha k práci Václav Brodec 690.14 MB
Stáhnout Abstrakt v českém jazyce Václav Brodec 30 kB
Stáhnout Abstrakt anglicky Václav Brodec 29 kB
Stáhnout Posudek vedoucího Mgr. Martin Nečaský, Ph.D. 141 kB
Stáhnout Posudek oponenta RNDr. Martin Svoboda 93 kB
Stáhnout Záznam o průběhu obhajoby Mgr. Martin Nečaský, Ph.D. 152 kB