velikost textu

Analysis of Real-World Data and Their Exploitation

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Analysis of Real-World Data and Their Exploitation
Název v češtině:
Analýzy reálných dat a jejich využití
Typ:
Disertační práce
Autor:
Mgr. Jakub Stárka, Ph.D.
Školitel:
doc. RNDr. Irena Holubová, Ph.D.
Oponenti:
Doc. Ing. Michal Krátký, Ph.D.
prof. Martine Collard
Id práce:
85363
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (P1801)
Obor studia:
Softwarové systémy (4I2)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
23. 9. 2013
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstrakt:
Název práce: Analýzy reálných dat a jejich využití Autor: Jakub Stárka Katedra: Katedra softwarového inženýrství Vedoucí disertační práce: RNDr. Irena Holubová, Ph.D. Abstrakt: Znalost reálných dat je základem pro optimalizaci mnoha technik zpracování dat. Jejich získání, analýza či integrace zahrnují mnoho problémů, na které je zaměřena tato práce. Mezi tyto hlavní problémy patří např. automatické stahování dokumentů, extrakce dat a jejich analýza, či odvozování schémat. V této práci popíšeme komplexní framework, který umožňuje opakovaně provádět statistickou analýzu nad reálnými XML dokumenty, které jsou získané z internetu. Také navrhneme několik charakteristik pro XML dokumenty, RDF trojice a XQuery dotazy včetně podrobných výstupů analýz nad několika veřejně dostupnými kolekcemi dat. V neposlední řadě popíšeme rozšiřitelný nástroj pro odvozování XML schémat. Díky jeho modulárnímu designu je možné kombinovat několik nezávislých přístupů pro jednotlivé kroky. V rámci práce nepopíšeme jen samotný framework, ale i oblast odvozování jako takovou a s ní související problémy. Klíčová slova: analýza dat, extrakce dat, odvozování schémat 1
Abstract v angličtině:
Title: Analyses of Real-World Data and Their Exploitation Author: Mgr. Jakub Stárka Department: Department of Software Engineering Supervisor: RNDr. Irena Holubová, Ph.D. Abstract: The typical optimization strategy of many data processing techniques is ex- ploitation of the knowledge of constructs typically used in real-world applications. However, such approach requires a repeatable, updatable and detailed analysis of a rep- resentative data set. Having such a requirement a number of related problems arises, such as automatic crawling of the data, data extraction, schema inference, and efficient performance of analyses over a huge data volume as well as exploitation of the results in current applications. In this thesis we describe a complex framework for performing statistical analyses of real-world documents and we propose characteristics that appropriately capture and describe features of XML documents, RDF triples and XQuery queries. Additionally we provide experimental results over a few selected real-world data sets. Last but not least we introduce an easily extensible tool that enables one to implement, test and compare new modules of the XML schema inference process. We describe not only the framework, but the area of schema inference in general, including related work and open problems. Keywords: data analysis, data extraction, schema inference 1
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Jakub Stárka, Ph.D. 7.78 MB
Stáhnout Abstrakt v českém jazyce Mgr. Jakub Stárka, Ph.D. 20 kB
Stáhnout Abstrakt anglicky Mgr. Jakub Stárka, Ph.D. 19 kB
Stáhnout Posudek vedoucího doc. RNDr. Irena Holubová, Ph.D. 16 kB
Stáhnout Posudek oponenta Doc. Ing. Michal Krátký, Ph.D. 999 kB
Stáhnout Posudek oponenta prof. Martine Collard 1.18 MB
Stáhnout Záznam o průběhu obhajoby 89 kB