Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Webcrawler

Thesis title in Czech:	Webcrawler
Thesis title in English:	Webcrawler
Academic year of topic announcement:	2005/2006
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Pavel Pecina, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	14.11.2005
Date of assignment:	14.11.2005
Date and time of defence:	18.09.2006 00:00
Date of electronic submission:	18.09.2006
Date of submission of printed version:	18.09.2006
Date of proceeded defence:	18.09.2006
Opponents:	RNDr. Petr Podveský, Ph.D.

Guidelines

Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových textů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tento program musí dodržovat požadavky na chovaní robotů dané jednotlivými servery (robots.txt apod.).

References

Web Client Programming with Perl
Clinton Wong
O'Reilly, 1st Edition March 1997

Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze
The MIT Press, 1999

Preliminary scope of work

Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových testů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tneto program musí dodržovat požadvky na chvoání robotů dané jednotlivými servery (robots.txt apod.).