Webový vyhledávací systém
Název práce v jazyce práce (slovenština): | Webový vyhledávací systém |
---|---|
Název práce v češtině: | Webový vyhledávací systém |
Název v anglickém jazyce: | Web Search Engine |
Klíčová slova: | galaxy, vyhľadávač, index, wayback, distribuované spracovanie, dataset, worker, procesor, j5m, crawler, egothor, konektor, webové služby |
Klíčová slova anglicky: | galaxy, search engine, index, wayback, distributed processing, dataset, worker, procesor, j5m, crawler, egothor, connector, web services |
Akademický rok vypsání: | 2010/2011 |
Typ práce: | diplomová práce |
Jazyk práce: | slovenština |
Ústav: | Katedra distribuovaných a spolehlivých systémů (32-KDSS) |
Vedoucí / školitel: | RNDr. Leo Galamboš, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 29.10.2010 |
Datum zadání: | 29.10.2010 |
Datum a čas obhajoby: | 27.01.2014 09:30 |
Datum odevzdání elektronické podoby: | 06.12.2013 |
Datum odevzdání tištěné podoby: | 06.12.2013 |
Datum proběhlé obhajoby: | 27.01.2014 |
Oponenti: | prof. RNDr. Tomáš Skopal, Ph.D. |
Zásady pro vypracování |
Prostudujte již existující komponenty první generace systému pro zpracování webového obsahu (j5m, egothor2, wse, distribuovaný robot). Navrhněte a implementujte clusterové řešení webového vyhledávacího systému. Systém by měl splňovat následující body:
1) management crawlovacího procesu 2) management filtrovacího procesu 3) management několika souběžně spravovaných indexů 4) podpora několika skupin uživatelů s různými oprávněními pro správu indexů, crawlovacího procesu, vyhledávání, a zpracování získaných webových dat 5) wayback machine, backlink podpora 6) podpora off-line dotazování 7) Web-Service rozhraní pro přístup k jednotlivým modulům, s možností nasazení BPEL Body 1-6 naplňují implementační část práce. Bod 6 je dále zaměřen na experimentální vybudování vyhledávací aparatury (viz níže). Bod 7 je zaměřen na analýzu navrženého řešení a jeho další možné začlenění do větších informačních celků. Pro podporu off-line dotazování by měla práce umožnit výpočet "informační vzdálenosti" mezi zvolenými entitami (typicky tokeny). Tento výpočet by měl probíhat nad tranzitivním uzávěrem dostupných entit; například: token, věta, odstavec, dokument, odkaz, TLD doména, jazyk. Výpočet může probíhat technikou Map&Reduce, anebo jiným efektivnějším způsobem. Cílem je vymezit základní podmínky pro takový výpočet a nalézt a prozkoumat vhodné implementační prostředky a postupy. Součástí práce již naopak nemusí být srovnání kvality takového vyhledávání vůči stávajícím postupům založeným na Page-ranku, HITS nebo SALSA. |
Seznam odborné literatury |
M. Najork: Querying the Web Graph. SPIRE 2010, LNCS 6393, pp. 1-12, 2010.
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003. Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999. Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994. L. Galamboš: EGOTHOR 2, 2008. L. Galamboš: Bobo: distribuovaný robot, 2010. L. Galamboš: j5m, 2009. |