Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Testovací platforma pro Webové roboty
Thesis title in Czech: Testovací platforma pro Webové roboty
Thesis title in English: Test bed for Web robots
Academic year of topic announcement: 2006/2007
Thesis type: diploma thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: RNDr. Leo Galamboš, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 26.10.2006
Date of assignment: 26.10.2006
Date and time of defence: 25.05.2009 00:00
Date of electronic submission:10.04.2009
Date of submission of printed version:10.04.2009
Date of proceeded defence: 25.05.2009
Opponents: RNDr. Michal Kopecký, Ph.D.
 
 
 
Guidelines
Prozkoumejte techniky, které dovolují predikovat parametry Webového prostoru na základě jeho vzorku. Navrhněte způsob, kterým je možné Webovému robotu simulovat celý takový Web bez nutnosti jeho kompletního stahování.

Řešení musí robotu nabídnout "fiktivní" připojení k Internetu, ve kterém je daný Webový prostor simulován (na úrovni síťového připojení).

Zároveň musí být dostupné konzolové rozhraní, které dovolí ověřovat různé stahovací techniky (bez simulace síťového rozhraní, jen na aplikační úrovni). Například algoritmů zajišťujících prioritní stahování hub/authority zdrojů.

Práce je zaměřena na UNIXové prostředí a vyžaduje znalosti směrování v síti (routování).
References
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.
Preliminary scope of work
Cílem práce je navrhnout a realizovat testovací prostředí, které umožní efektivní ověřování strategií pro stahování obsahu Webu.
Preliminary scope of work in English
The aim of this work is to design and implement a test bed for Web crawling.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html