Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Webový vyhledávací systém
Název práce v jazyce práce (slovenština): Webový vyhledávací systém
Název práce v češtině: Webový vyhledávací systém
Název v anglickém jazyce: Web Search Engine
Klíčová slova: galaxy, vyhľadávač, index, wayback, distribuované spracovanie, dataset, worker, procesor, j5m, crawler, egothor, konektor, webové služby
Klíčová slova anglicky: galaxy, search engine, index, wayback, distributed processing, dataset, worker, procesor, j5m, crawler, egothor, connector, web services
Akademický rok vypsání: 2010/2011
Typ práce: diplomová práce
Jazyk práce: slovenština
Ústav: Katedra distribuovaných a spolehlivých systémů (32-KDSS)
Vedoucí / školitel: RNDr. Leo Galamboš, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 29.10.2010
Datum zadání: 29.10.2010
Datum a čas obhajoby: 27.01.2014 09:30
Datum odevzdání elektronické podoby:06.12.2013
Datum odevzdání tištěné podoby:06.12.2013
Datum proběhlé obhajoby: 27.01.2014
Oponenti: prof. RNDr. Tomáš Skopal, Ph.D.
 
 
 
Zásady pro vypracování
Prostudujte již existující komponenty první generace systému pro zpracování webového obsahu (j5m, egothor2, wse, distribuovaný robot). Navrhněte a implementujte clusterové řešení webového vyhledávacího systému. Systém by měl splňovat následující body:

1) management crawlovacího procesu
2) management filtrovacího procesu
3) management několika souběžně spravovaných indexů
4) podpora několika skupin uživatelů s různými oprávněními pro správu indexů, crawlovacího procesu, vyhledávání, a zpracování získaných webových dat
5) wayback machine, backlink podpora
6) podpora off-line dotazování
7) Web-Service rozhraní pro přístup k jednotlivým modulům, s možností nasazení BPEL

Body 1-6 naplňují implementační část práce. Bod 6 je dále zaměřen na experimentální vybudování vyhledávací aparatury (viz níže). Bod 7 je zaměřen na analýzu navrženého řešení a jeho další možné začlenění do větších informačních celků.

Pro podporu off-line dotazování by měla práce umožnit výpočet "informační vzdálenosti" mezi zvolenými entitami (typicky tokeny). Tento výpočet by měl probíhat nad tranzitivním uzávěrem dostupných entit; například: token, věta, odstavec, dokument, odkaz, TLD doména, jazyk. Výpočet může probíhat technikou Map&Reduce, anebo jiným efektivnějším způsobem. Cílem je vymezit základní podmínky pro takový výpočet a nalézt a prozkoumat vhodné implementační prostředky a postupy. Součástí práce již naopak nemusí být srovnání kvality takového vyhledávání vůči stávajícím postupům založeným na Page-ranku, HITS nebo SALSA.
Seznam odborné literatury
M. Najork: Querying the Web Graph. SPIRE 2010, LNCS 6393, pp. 1-12, 2010.
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.
Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994.
L. Galamboš: EGOTHOR 2, 2008.
L. Galamboš: Bobo: distribuovaný robot, 2010.
L. Galamboš: j5m, 2009.
 
Univerzita Karlova | Informační systém UK