Kešovací strategie webových vyhledávacích systémů
Thesis title in Czech: | Kešovací strategie webových vyhledávacích systémů |
---|---|
Thesis title in English: | Search Engines Caching Strategies |
Academic year of topic announcement: | 2007/2008 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | RNDr. Leo Galamboš, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 15.11.2007 |
Date of assignment: | 15.11.2007 |
Date and time of defence: | 24.09.2008 00:00 |
Date of electronic submission: | 24.09.2008 |
Date of submission of printed version: | 24.09.2008 |
Date of proceeded defence: | 24.09.2008 |
Opponents: | RNDr. Alan Eckhardt, Ph.D. |
Guidelines |
- prostudujte kešovací strategie
- zhodnoťte jednotlivé techniky kešování v rámci DIS - simulujte několik kešovacích strategií při reálném provozu nad webovým indexem, studujte zejména úsporu I/O operací - implementujte v rámci platformy egothor2 |
References |
F. Silvestri: High Performance Issues in Web Search Engines: Algorithms and Techniques. Ph.D. Thesis, Uni of Pisa, 5/2004.
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003. Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999. Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994. |
Preliminary scope of work |
Současné webové vyhledávací systémy využívají sekvenčně pracující algoritmy pro indexování i vyhledávání. Jejich výkon lze proto zvyšovat jen v omezené míře a velkou váhu tak dostávají vhodné kešovací strategie.
Cílem této práce je zhodnotit kvalitu dostupných kešovacích strategií v mediátoru/brokeru vyhledávacícho systému z pohledu faktické úspory I/O operací. K praktickému zhodnocení bude využita dostupná platforma egothor2. Uživatelské dotazy budou získány z volně dostupných logů velkých komerčních vyhledávačů. |
Preliminary scope of work in English |
Modern web search engines implements sequential algorithms for the indexing and searching processes. The performance can be improved to some level, but then the good caching policies must play the game.
The aim of this work is to summarize all the aspects of the caching policies in the mediator/broker of the web search engine according to the real savings of I/O operations. The work is oriented to the egothor2 platform. User queries come from the old available logs of big commercial search engines. |