Web page data figure finder
Thesis title in Czech: | Vyhledávač údajů ve webových stránkách |
---|---|
Thesis title in English: | Web page data figure finder |
Key words: | Sémantizace webu, extrakce dat, experimentální práce, prohlížečový plugin, sběr dat |
English key words: | Web Semantisation, data extraction, experimental work, Web browser plugin, data collection |
Academic year of topic announcement: | 2015/2016 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | prof. RNDr. Peter Vojtáš, DrSc. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 28.11.2015 |
Date of assignment: | 01.12.2015 |
Confirmed by Study dept. on: | 10.03.2016 |
Date and time of defence: | 16.06.2016 10:00 |
Date of electronic submission: | 12.05.2016 |
Date of submission of printed version: | 13.05.2016 |
Date of proceeded defence: | 16.06.2016 |
Opponents: | doc. Mgr. Martin Nečaský, Ph.D. |
Guidelines |
Cílem této diplomové práce je vytvořit systém pro sémantické vyhledávání informací ve webových stránkách. Nejedná se o porozumění textu jako celku, jen jednotlivých údajů. Údaje, které bude systém v textu rozpoznávat, budou kategorizovány podle typu stránky.
Architektonicky bude mít řešení klientskou část a serverovou část. Klientská část bude realizovaná jako „add-on“ do webového prohlížeče a bude sloužit jak pro vyhledávání ve stránce, tak naopak pro sběr dat. Serverová část bude přijímat data sbíraná klientem a zpětně bude aktualizovat klientský „add-on“ za účelem využití nasbíraných dat pro zlepšení vyhledávání. Řešení bude mít dvě úrovně. Základem bude vytvoření taxonomie stránek, jejichž údaje budeme rozpoznávat, a definice údajů samotných. Tyto údaje získají startovní popis, jak lze v textu rozpoznat hodnoty atributů. Tato první část umožní vyhledávání v textu stránky pomocí datového typu. To samo o sobě má přidanou hodnotu, protože takové vyhledávání v prohlížečích není a pro uživatele může být zajímavé. Vyhledávání pomocí datových typů pak poslouží pro sběr dat pro druhou část určující pravidla pro jednotlivé údaje. Pro vytváření přesnějších pravidel se vyzkouší postupy popsané v [1]. Tato pravidla budou zpátky stahována do „add-on-u“, který na jejich základě mezi nalezenými výskyty údaje určí a graficky zvýrazní ten, který podle pravidel je nejpravděpodobněji hledaným údajem. Práce je experimentální – obsahuje modely; metody; prototyp; uživatelské experimenty; sběr dat z vícero domén; různá vyhodnocení: přesnosti a úplnosti, míry automatizace, množství expertního zásahu, uživatelského komfortu. Zadání a jeho orientace se může v průběhu řešení měnit, upřesňovat. |
References |
[1] A. Laender, B. Ribeiro-Neto, A.daSilva, J. Teixeira. A brief survey of web data extraction tools. ACM SIGMOD Record 31,2 (2002) 84-93, http://dl.acm.org/citation.cfm?id=565137 , poslouží jako rozcestník pro směry rozvíjení algoritmů. Další literatura bude průběžně doplňována v souladu s potřebou prohloubení znalostí v příslušném směru.
[2] Dominik Fišer. Sémantická anotace doménově závislých dat. DP MFF UK 2011 [3] https://developer.mozilla.org/en-US/Add-ons - poslouží jako rozcestník pro implementaci add-onu. Je možné, že nakonec bude využit jiný prohlížeč než Mozilla Firefox, např. Internet Explorer. |
Preliminary scope of work |
Když má uživatel otevřenou webovou stránku a chce na ní najít textový řetězec, je to velmi jednoduché, protože fulltextové vyhledávání je přirozenou součástí každého prohlížeče. Ale co když nezná řetězec, který chce hledat, ale chce najít například datum založení Karlovy univerzity na stránce Wikipedie, nebo třeba výkon procesoru na nějaké méně přehledné stránce e-shopu s elektronikou? V tom případě musí stránku ručně projít shora dolů, dokud údaj nenajde.
Tento problém se však již řada lidí pokoušela řešit ([1], [2]), a na některém z nich by se dalo postavit řešení univerzálního add-onu. Na řešení Mgr. Fišera ([2]) lze navázat koncepcí projektu jako add-onu do prohlížeče se serverovou částí pro sběr a zpracování dat. Odlišit se lze v jádru řešení: přístup [2] spočívá v anotování jednotlivých webů. Tedy pro web, který nikdo předem ručně neanotoval, nemůže dávat žádné výstupy. Přitom se ale nabízí jisté univerzální rysy některých údajů: cena bývá formátována tak, že jsou odděleny tisíce, a někdy ji předchází či následuje nějaký z identifikátorů měny, jako $ nebo Kč. Proto by bylo možné sestavit sadu elementárních pravidel, která by umožňovala "naivní" vyhledávání ceny. Na toto “naivní” vyhledávání se pak postaví sběr dat, kdy se z uživatelova chování odvodí správný výsledek (výskyt, u kterého se zarazil, případně který nějak explicitně potvrdil). A nasbíraná data se zpracují pro vytvoření “chytrých” pravidel, která umožní poskytovat lepší výsledky. |