Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Web page data figure finder

Název práce v češtině:	Vyhledávač údajů ve webových stránkách
Název v anglickém jazyce:	Web page data figure finder
Klíčová slova:	Sémantizace webu, extrakce dat, experimentální práce, prohlížečový plugin, sběr dat
Klíčová slova anglicky:	Web Semantisation, data extraction, experimental work, Web browser plugin, data collection
Akademický rok vypsání:	2015/2016
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	prof. RNDr. Peter Vojtáš, DrSc.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	28.11.2015
Datum zadání:	01.12.2015
Datum potvrzení stud. oddělením:	10.03.2016
Datum a čas obhajoby:	16.06.2016 10:00
Datum odevzdání elektronické podoby:	12.05.2016
Datum odevzdání tištěné podoby:	13.05.2016
Datum proběhlé obhajoby:	16.06.2016
Oponenti:	doc. Mgr. Martin Nečaský, Ph.D.

Zásady pro vypracování

Cílem této diplomové práce je vytvořit systém pro sémantické vyhledávání informací ve webových stránkách. Nejedná se o porozumění textu jako celku, jen jednotlivých údajů. Údaje, které bude systém v textu rozpoznávat, budou kategorizovány podle typu stránky.
Architektonicky bude mít řešení klientskou část a serverovou část. Klientská část bude realizovaná jako „add-on“ do webového prohlížeče a bude sloužit jak pro vyhledávání ve stránce, tak naopak pro sběr dat. Serverová část bude přijímat data sbíraná klientem a zpětně bude aktualizovat klientský „add-on“ za účelem využití nasbíraných dat pro zlepšení vyhledávání.
Řešení bude mít dvě úrovně. Základem bude vytvoření taxonomie stránek, jejichž údaje budeme rozpoznávat, a definice údajů samotných. Tyto údaje získají startovní popis, jak lze v textu rozpoznat hodnoty atributů. Tato první část umožní vyhledávání v textu stránky pomocí datového typu. To samo o sobě má přidanou hodnotu, protože takové vyhledávání v prohlížečích není a pro uživatele může být zajímavé.
Vyhledávání pomocí datových typů pak poslouží pro sběr dat pro druhou část určující pravidla pro jednotlivé údaje. Pro vytváření přesnějších pravidel se vyzkouší postupy popsané v [1]. Tato pravidla budou zpátky stahována do „add-on-u“, který na jejich základě mezi nalezenými výskyty údaje určí a graficky zvýrazní ten, který podle pravidel je nejpravděpodobněji hledaným údajem.
Práce je experimentální – obsahuje modely; metody; prototyp; uživatelské experimenty; sběr dat z vícero domén; různá vyhodnocení: přesnosti a úplnosti, míry automatizace, množství expertního zásahu, uživatelského komfortu.
Zadání a jeho orientace se může v průběhu řešení měnit, upřesňovat.

Seznam odborné literatury

[1] A. Laender, B. Ribeiro-Neto, A.daSilva, J. Teixeira. A brief survey of web data extraction tools. ACM SIGMOD Record 31,2 (2002) 84-93, http://dl.acm.org/citation.cfm?id=565137 , poslouží jako rozcestník pro směry rozvíjení algoritmů. Další literatura bude průběžně doplňována v souladu s potřebou prohloubení znalostí v příslušném směru.
[2] Dominik Fišer. Sémantická anotace doménově závislých dat. DP MFF UK 2011
[3] https://developer.mozilla.org/en-US/Add-ons - poslouží jako rozcestník pro implementaci add-onu. Je možné, že nakonec bude využit jiný prohlížeč než Mozilla Firefox, např. Internet Explorer.

Předběžná náplň práce

Když má uživatel otevřenou webovou stránku a chce na ní najít textový řetězec, je to velmi jednoduché, protože fulltextové vyhledávání je přirozenou součástí každého prohlížeče. Ale co když nezná řetězec, který chce hledat, ale chce najít například datum založení Karlovy univerzity na stránce Wikipedie, nebo třeba výkon procesoru na nějaké méně přehledné stránce e-shopu s elektronikou? V tom případě musí stránku ručně projít shora dolů, dokud údaj nenajde.
Tento problém se však již řada lidí pokoušela řešit ([1], [2]), a na některém z nich by se dalo postavit řešení univerzálního add-onu. Na řešení Mgr. Fišera ([2]) lze navázat koncepcí projektu jako add-onu do prohlížeče se serverovou částí pro sběr a zpracování dat. Odlišit se lze v jádru řešení: přístup [2] spočívá v anotování jednotlivých webů. Tedy pro web, který nikdo předem ručně neanotoval, nemůže dávat žádné výstupy. Přitom se ale nabízí jisté univerzální rysy některých údajů: cena bývá formátována tak, že jsou odděleny tisíce, a někdy ji předchází či následuje nějaký z identifikátorů měny, jako $ nebo Kč. Proto by bylo možné sestavit sadu elementárních pravidel, která by umožňovala "naivní" vyhledávání ceny.
Na toto “naivní” vyhledávání se pak postaví sběr dat, kdy se z uživatelova chování odvodí správný výsledek (výskyt, u kterého se zarazil, případně který nějak explicitně potvrdil). A nasbíraná data se zpracují pro vytvoření “chytrých” pravidel, která umožní poskytovat lepší výsledky.