Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Webcrawler
Název práce v češtině: Webcrawler
Název v anglickém jazyce: Webcrawler
Akademický rok vypsání: 2005/2006
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 14.11.2005
Datum zadání: 14.11.2005
Datum a čas obhajoby: 18.09.2006 00:00
Datum odevzdání elektronické podoby:18.09.2006
Datum odevzdání tištěné podoby:18.09.2006
Datum proběhlé obhajoby: 18.09.2006
Oponenti: RNDr. Petr Podveský, Ph.D.
 
 
 
Zásady pro vypracování
Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových textů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tento program musí dodržovat požadavky na chovaní robotů dané jednotlivými servery (robots.txt apod.).
Seznam odborné literatury
Web Client Programming with Perl
Clinton Wong
O'Reilly, 1st Edition March 1997

Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze
The MIT Press, 1999
Předběžná náplň práce
Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových testů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tneto program musí dodržovat požadvky na chvoání robotů dané jednotlivými servery (robots.txt apod.).
 
Univerzita Karlova | Informační systém UK