Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Testovací platforma pro Webové roboty

Název práce v češtině:	Testovací platforma pro Webové roboty
Název v anglickém jazyce:	Test bed for Web robots
Akademický rok vypsání:	2006/2007
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	RNDr. Leo Galamboš, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	26.10.2006
Datum zadání:	26.10.2006
Datum potvrzení stud. oddělením:	03.05.2013
Datum a čas obhajoby:	24.09.2008 00:00
Datum odevzdání elektronické podoby:	24.09.2008
Datum proběhlé obhajoby:	24.09.2008
Oponenti:	RNDr. David Obdržálek, Ph.D.

Zásady pro vypracování

Prozkoumejte techniky, které dovolují predikovat parametry Webového prostoru na základě jeho vzorku. Navrhněte způsob, kterým je možné Webovému robotu simulovat celý takový Web bez nutnosti jeho kompletního stahování.

Řešení musí robotu nabídnout "fiktivní" připojení k Internetu, ve kterém je daný Webový prostor simulován (na úrovni síťového připojení).

Zároveň musí být dostupné konzolové rozhraní, které dovolí ověřovat různé stahovací techniky (bez simulace síťového rozhraní, jen na aplikační úrovni). Například algoritmů zajišťujících prioritní stahování hub/authority zdrojů.

Práce je zaměřena na UNIXové prostředí a vyžaduje znalosti směrování v síti (routování).

Seznam odborné literatury

Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.

Předběžná náplň práce

Cílem práce je navrhnout a realizovat testovací prostředí, které umožní efektivní ověřování strategií pro stahování obsahu Webu.

Předběžná náplň práce v anglickém jazyce

The aim of this work is to design and implement a test bed for Web crawling.