Webcrawler
Thesis title in Czech: | Webcrawler |
---|---|
Thesis title in English: | Webcrawler |
Academic year of topic announcement: | 2005/2006 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: | hidden![]() |
Date of registration: | 14.11.2005 |
Date of assignment: | 14.11.2005 |
Date and time of defence: | 18.09.2006 00:00 |
Date of electronic submission: | 18.09.2006 |
Date of submission of printed version: | 18.09.2006 |
Date of proceeded defence: | 18.09.2006 |
Opponents: | RNDr. Petr Podveský, Ph.D. |
Guidelines |
Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových textů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tento program musí dodržovat požadavky na chovaní robotů dané jednotlivými servery (robots.txt apod.). |
References |
Web Client Programming with Perl
Clinton Wong O'Reilly, 1st Edition March 1997 Foundations of Statistical Natural Language Processing Christopher D. Manning, Hinrich Schutze The MIT Press, 1999 |
Preliminary scope of work |
Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových testů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tneto program musí dodržovat požadvky na chvoání robotů dané jednotlivými servery (robots.txt apod.). |