Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Kešovací strategie webových vyhledávacích systémů
Thesis title in Czech: Kešovací strategie webových vyhledávacích systémů
Thesis title in English: Search Engines Caching Strategies
Academic year of topic announcement: 2007/2008
Thesis type: diploma thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: RNDr. Leo Galamboš, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 15.11.2007
Date of assignment: 15.11.2007
Date and time of defence: 24.09.2008 00:00
Date of electronic submission:24.09.2008
Date of submission of printed version:24.09.2008
Date of proceeded defence: 24.09.2008
Opponents: RNDr. Alan Eckhardt, Ph.D.
 
 
 
Guidelines
- prostudujte kešovací strategie
- zhodnoťte jednotlivé techniky kešování v rámci DIS
- simulujte několik kešovacích strategií při reálném provozu nad webovým indexem, studujte zejména úsporu I/O operací
- implementujte v rámci platformy egothor2
References
F. Silvestri: High Performance Issues in Web Search Engines: Algorithms and Techniques. Ph.D. Thesis, Uni of Pisa, 5/2004.
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.
Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994.
Preliminary scope of work
Současné webové vyhledávací systémy využívají sekvenčně pracující algoritmy pro indexování i vyhledávání. Jejich výkon lze proto zvyšovat jen v omezené míře a velkou váhu tak dostávají vhodné kešovací strategie.

Cílem této práce je zhodnotit kvalitu dostupných kešovacích strategií v mediátoru/brokeru vyhledávacícho systému z pohledu faktické úspory I/O operací. K praktickému zhodnocení bude využita dostupná platforma egothor2. Uživatelské dotazy budou získány z volně dostupných logů velkých komerčních vyhledávačů.
Preliminary scope of work in English
Modern web search engines implements sequential algorithms for the indexing and searching processes. The performance can be improved to some level, but then the good caching policies must play the game.

The aim of this work is to summarize all the aspects of the caching policies in the mediator/broker of the web search engine according to the real savings of I/O operations. The work is oriented to the egothor2 platform. User queries come from the old available logs of big commercial search engines.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html