Testovací platforma pro Webové roboty
Thesis title in Czech: | Testovací platforma pro Webové roboty |
---|---|
Thesis title in English: | Test bed for Web robots |
Academic year of topic announcement: | 2006/2007 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | RNDr. Leo Galamboš, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 26.10.2006 |
Date of assignment: | 26.10.2006 |
Date and time of defence: | 25.05.2009 00:00 |
Date of electronic submission: | 10.04.2009 |
Date of submission of printed version: | 10.04.2009 |
Date of proceeded defence: | 25.05.2009 |
Opponents: | RNDr. Michal Kopecký, Ph.D. |
Guidelines |
Prozkoumejte techniky, které dovolují predikovat parametry Webového prostoru na základě jeho vzorku. Navrhněte způsob, kterým je možné Webovému robotu simulovat celý takový Web bez nutnosti jeho kompletního stahování.
Řešení musí robotu nabídnout "fiktivní" připojení k Internetu, ve kterém je daný Webový prostor simulován (na úrovni síťového připojení). Zároveň musí být dostupné konzolové rozhraní, které dovolí ověřovat různé stahovací techniky (bez simulace síťového rozhraní, jen na aplikační úrovni). Například algoritmů zajišťujících prioritní stahování hub/authority zdrojů. Práce je zaměřena na UNIXové prostředí a vyžaduje znalosti směrování v síti (routování). |
References |
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999. |
Preliminary scope of work |
Cílem práce je navrhnout a realizovat testovací prostředí, které umožní efektivní ověřování strategií pro stahování obsahu Webu. |
Preliminary scope of work in English |
The aim of this work is to design and implement a test bed for Web crawling. |