velikost textu

Content-based exploration of unstructured data

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Content-based exploration of unstructured data
Název v češtině:
Explorace v nestrukturovaných datech podle obsahu
Typ:
Disertační práce
Autor:
Bc. Přemysl Čech
Školitel:
RNDr. Jakub Lokoč, Ph.D.
Oponenti:
Kai Uwe Barthel
Gylfi Thor Gudmundsson
Id práce:
149874
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika - Softwarové systémy (P0613D140009)
Obor studia:
Informatika - Softwarové systémy (P4I2)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
28. 1. 2020
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
Vyhledávání dle obsahu, podobnostní vyhledávání, explorace, nestrukturovaná data
Klíčová slova v angličtině:
Content-based retrieval, similarity search, exploration, unstructured data
Abstrakt:
Efektivní analýza, vyhledávání a procházení libovolných multimediálních kolekcí je stále náročný úkol. Pro potřeby porovnání multimediálních objektů musí být nejprve definován model podobnosti. Ten popisuje, jak zpracovat obsah jednotlivých objektů a jak z něj následně vytěžit klíčové vlastnosti, které lze použít pro porovnání dat. Tento úkol není snadný, protože existuje mnoho způsobů, jak porozumět obsahu multimediálních objektů. S rostoucí velikostí dat je navíc průzkum a analýza současných multimédiální databází mimořádně výpočetně náročná. Vědci proto zkoumají podpůrné indexační struktury, které mohou efektivně vyhodnotit podobnostní dotazy a dokážou reagovat na požadavky uživatelů téměř v reálném čase, a to dokonce i na datových sadách obsahujících až miliardy objektů. Dalším velmi důležitým aspektem jakéhokoliv vyhledávacího systému je uživatelské rozhraní pro definování dotazů a prezentaci získaných výsledků. Multimediální systém by měl nabízet různé možnosti pro formulaci uživatelských dotazů. Ty se hodí zejména v situacích, kdy uživatel nedokáže specifikovat ideální dotaz nebo příklad pro vyhledávání. V neposlední řadě je pro úspěch jakéhokoliv vyhledávacího sytému nezbytné přehledné a snadno čitelné rozhraní pro zobrazování získaných dat. V této disertační práci představujeme mnoho aspektů vyhledávání a průzkumu multimediálních dat v různých scénářích a doménách (např. v obrázcích, videu či datech síťového provozu). Kromě toho zkoumáme nejmodernější vyhledávací prototypy a aplikace a diskutujeme jejich výhody a omezení. Dále prezentujeme výsledky, které byly nasbírány pomocí automatických a uživatelských experimentů. Abychom se vypořádali s problémy škálovatelnosti, důsledně rozebíráme podobnostní spojení pro vyhodnocování dotazů v metrických prostorech pracující v distribuovaném prostředí MapReduce implementovaném na platformách Hadoop a Spark. Navrhujeme několik variant podobnostních spojení nabízející širokou škálu algoritmů s různými kompromisy rychlosti a přesnosti. Konkrétně studujeme přesné, přibližné a epsilon-přibližné spojení na základě různých přístupů k paralelizaci zpracování dat. Navržené zdrojové kódy algoritmů pro podobnostní spojení v jazyce Java pro platformu Spark jsme navíc volně zveřejnili na webovém serveru GitHub.com.
Abstract v angličtině:
Effective analysis, searching and browsing throughout arbitrary multimedia collections is still a challenging task. To perform a search among multimedia objects, first, a similarity model has to be defined. Such a model establishes methods describing how the content of individual objects is processed and how key features and descriptors, that are used for modeling similarity between objects, are formed. This task is not trivial since there can be many ways of determining how to comprehend the content of multimedia data. Furthermore, with the growing size of contemporary database collections, multimedia retrieval and exploration are extremely computationally intensive. Hence, researchers investigate support indexing structures that can evaluate similarity queries and can respond to user's queries in almost real-time even on datasets counting billions of objects. Another very important aspect of a retrieval system is the user interface for defining queries as well as presenting retrieved results. A multimedia system should offer various inputs for formulating user's queries, especially for situations in which a user cannot provide an ideal query example. Finally, a well- arranged and easy to read interface for visualization of retrieved results is essential for the success of a multimedia exploration and retrieval framework. In this thesis, we showcase many aspects of content-based retrieval and multimedia exploration in specific scenarios in multiple domains (e.g., images, video, network traffic data). On top of that, we investigate state-of-the-art retrieval prototypes and applications and discuss their advantages and limitations identified by automatic and user experimental evaluations. To deal with scalability issues, we profoundly study similarity joins for evaluating queries in metric spaces implemented in a distributed MapReduce environment adopting Hadoop and Spark platforms. We propose several variants of similarity joins offering a wide range of algorithms with different speed/precision (accuracy) trade-offs. Specifically, we study exact, approximate, and $epsilon$- approximate joins based on different approaches to data processing parallelization. Moreover, we have published java source codes of presented similarity joins for the Spark platform on the GitHub.com server.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Přemysl Čech 21.24 MB
Stáhnout Abstrakt v českém jazyce Bc. Přemysl Čech 82 kB
Stáhnout Abstrakt anglicky Bc. Přemysl Čech 59 kB
Stáhnout Posudek vedoucího RNDr. Jakub Lokoč, Ph.D. 452 kB
Stáhnout Posudek oponenta Kai Uwe Barthel 147 kB
Stáhnout Posudek oponenta Gylfi Thor Gudmundsson 163 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Tomáš Bureš, Ph.D. 155 kB