Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Web page data figure finder
Thesis title in Czech: Vyhledávač údajů ve webových stránkách
Thesis title in English: Web page data figure finder
Key words: Sémantizace webu, extrakce dat, experimentální práce, prohlížečový plugin, sběr dat
English key words: Web Semantisation, data extraction, experimental work, Web browser plugin, data collection
Academic year of topic announcement: 2015/2016
Thesis type: diploma thesis
Thesis language: angličtina
Department: Department of Software Engineering (32-KSI)
Supervisor: prof. RNDr. Peter Vojtáš, DrSc.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 28.11.2015
Date of assignment: 01.12.2015
Confirmed by Study dept. on: 10.03.2016
Date and time of defence: 16.06.2016 10:00
Date of electronic submission:12.05.2016
Date of submission of printed version:13.05.2016
Date of proceeded defence: 16.06.2016
Opponents: doc. Mgr. Martin Nečaský, Ph.D.
 
 
 
Guidelines
Cílem této diplomové práce je vytvořit systém pro sémantické vyhledávání informací ve webových stránkách. Nejedná se o porozumění textu jako celku, jen jednotlivých údajů. Údaje, které bude systém v textu rozpoznávat, budou kategorizovány podle typu stránky.
Architektonicky bude mít řešení klientskou část a serverovou část. Klientská část bude realizovaná jako „add-on“ do webového prohlížeče a bude sloužit jak pro vyhledávání ve stránce, tak naopak pro sběr dat. Serverová část bude přijímat data sbíraná klientem a zpětně bude aktualizovat klientský „add-on“ za účelem využití nasbíraných dat pro zlepšení vyhledávání.
Řešení bude mít dvě úrovně. Základem bude vytvoření taxonomie stránek, jejichž údaje budeme rozpoznávat, a definice údajů samotných. Tyto údaje získají startovní popis, jak lze v textu rozpoznat hodnoty atributů. Tato první část umožní vyhledávání v textu stránky pomocí datového typu. To samo o sobě má přidanou hodnotu, protože takové vyhledávání v prohlížečích není a pro uživatele může být zajímavé.
Vyhledávání pomocí datových typů pak poslouží pro sběr dat pro druhou část určující pravidla pro jednotlivé údaje. Pro vytváření přesnějších pravidel se vyzkouší postupy popsané v [1]. Tato pravidla budou zpátky stahována do „add-on-u“, který na jejich základě mezi nalezenými výskyty údaje určí a graficky zvýrazní ten, který podle pravidel je nejpravděpodobněji hledaným údajem.
Práce je experimentální – obsahuje modely; metody; prototyp; uživatelské experimenty; sběr dat z vícero domén; různá vyhodnocení: přesnosti a úplnosti, míry automatizace, množství expertního zásahu, uživatelského komfortu.
Zadání a jeho orientace se může v průběhu řešení měnit, upřesňovat.
References
[1] A. Laender, B. Ribeiro-Neto, A.daSilva, J. Teixeira. A brief survey of web data extraction tools. ACM SIGMOD Record 31,2 (2002) 84-93, http://dl.acm.org/citation.cfm?id=565137 , poslouží jako rozcestník pro směry rozvíjení algoritmů. Další literatura bude průběžně doplňována v souladu s potřebou prohloubení znalostí v příslušném směru.
[2] Dominik Fišer. Sémantická anotace doménově závislých dat. DP MFF UK 2011
[3] https://developer.mozilla.org/en-US/Add-ons - poslouží jako rozcestník pro implementaci add-onu. Je možné, že nakonec bude využit jiný prohlížeč než Mozilla Firefox, např. Internet Explorer.
Preliminary scope of work
Když má uživatel otevřenou webovou stránku a chce na ní najít textový řetězec, je to velmi jednoduché, protože fulltextové vyhledávání je přirozenou součástí každého prohlížeče. Ale co když nezná řetězec, který chce hledat, ale chce najít například datum založení Karlovy univerzity na stránce Wikipedie, nebo třeba výkon procesoru na nějaké méně přehledné stránce e-shopu s elektronikou? V tom případě musí stránku ručně projít shora dolů, dokud údaj nenajde.
Tento problém se však již řada lidí pokoušela řešit ([1], [2]), a na některém z nich by se dalo postavit řešení univerzálního add-onu. Na řešení Mgr. Fišera ([2]) lze navázat koncepcí projektu jako add-onu do prohlížeče se serverovou částí pro sběr a zpracování dat. Odlišit se lze v jádru řešení: přístup [2] spočívá v anotování jednotlivých webů. Tedy pro web, který nikdo předem ručně neanotoval, nemůže dávat žádné výstupy. Přitom se ale nabízí jisté univerzální rysy některých údajů: cena bývá formátována tak, že jsou odděleny tisíce, a někdy ji předchází či následuje nějaký z identifikátorů měny, jako $ nebo Kč. Proto by bylo možné sestavit sadu elementárních pravidel, která by umožňovala "naivní" vyhledávání ceny.
Na toto “naivní” vyhledávání se pak postaví sběr dat, kdy se z uživatelova chování odvodí správný výsledek (výskyt, u kterého se zarazil, případně který nějak explicitně potvrdil). A nasbíraná data se zpracují pro vytvoření “chytrých” pravidel, která umožní poskytovat lepší výsledky.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html