Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 341)
Detail práce
   Přihlásit přes CAS
Testovací platforma pro Webové roboty
Název práce v češtině: Testovací platforma pro Webové roboty
Název v anglickém jazyce: Test bed for Web robots
Akademický rok vypsání: 2006/2007
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Leo Galamboš, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 26.10.2006
Datum zadání: 26.10.2006
Datum a čas obhajoby: 25.05.2009 00:00
Datum odevzdání elektronické podoby:10.04.2009
Datum odevzdání tištěné podoby:10.04.2009
Datum proběhlé obhajoby: 25.05.2009
Oponenti: RNDr. Michal Kopecký, Ph.D.
 
 
 
Zásady pro vypracování
Prozkoumejte techniky, které dovolují predikovat parametry Webového prostoru na základě jeho vzorku. Navrhněte způsob, kterým je možné Webovému robotu simulovat celý takový Web bez nutnosti jeho kompletního stahování.

Řešení musí robotu nabídnout "fiktivní" připojení k Internetu, ve kterém je daný Webový prostor simulován (na úrovni síťového připojení).

Zároveň musí být dostupné konzolové rozhraní, které dovolí ověřovat různé stahovací techniky (bez simulace síťového rozhraní, jen na aplikační úrovni). Například algoritmů zajišťujících prioritní stahování hub/authority zdrojů.

Práce je zaměřena na UNIXové prostředí a vyžaduje znalosti směrování v síti (routování).
Seznam odborné literatury
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.
Předběžná náplň práce
Cílem práce je navrhnout a realizovat testovací prostředí, které umožní efektivní ověřování strategií pro stahování obsahu Webu.
Předběžná náplň práce v anglickém jazyce
The aim of this work is to design and implement a test bed for Web crawling.
 
Univerzita Karlova | Informační systém UK