Testovací platforma pro Webové roboty
Název práce v češtině: | Testovací platforma pro Webové roboty |
---|---|
Název v anglickém jazyce: | Test bed for Web robots |
Akademický rok vypsání: | 2006/2007 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Leo Galamboš, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 26.10.2006 |
Datum zadání: | 26.10.2006 |
Datum potvrzení stud. oddělením: | 03.05.2013 |
Datum a čas obhajoby: | 24.09.2008 00:00 |
Datum odevzdání elektronické podoby: | 24.09.2008 |
Datum proběhlé obhajoby: | 24.09.2008 |
Oponenti: | RNDr. David Obdržálek, Ph.D. |
Zásady pro vypracování |
Prozkoumejte techniky, které dovolují predikovat parametry Webového prostoru na základě jeho vzorku. Navrhněte způsob, kterým je možné Webovému robotu simulovat celý takový Web bez nutnosti jeho kompletního stahování.
Řešení musí robotu nabídnout "fiktivní" připojení k Internetu, ve kterém je daný Webový prostor simulován (na úrovni síťového připojení). Zároveň musí být dostupné konzolové rozhraní, které dovolí ověřovat různé stahovací techniky (bez simulace síťového rozhraní, jen na aplikační úrovni). Například algoritmů zajišťujících prioritní stahování hub/authority zdrojů. Práce je zaměřena na UNIXové prostředí a vyžaduje znalosti směrování v síti (routování). |
Seznam odborné literatury |
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999. |
Předběžná náplň práce |
Cílem práce je navrhnout a realizovat testovací prostředí, které umožní efektivní ověřování strategií pro stahování obsahu Webu. |
Předběžná náplň práce v anglickém jazyce |
The aim of this work is to design and implement a test bed for Web crawling. |