Webcrawler
Název práce v češtině: | Webcrawler |
---|---|
Název v anglickém jazyce: | Webcrawler |
Akademický rok vypsání: | 2005/2006 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 14.11.2005 |
Datum zadání: | 14.11.2005 |
Datum a čas obhajoby: | 18.09.2006 00:00 |
Datum odevzdání elektronické podoby: | 18.09.2006 |
Datum odevzdání tištěné podoby: | 18.09.2006 |
Datum proběhlé obhajoby: | 18.09.2006 |
Oponenti: | RNDr. Petr Podveský, Ph.D. |
Zásady pro vypracování |
Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových textů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tento program musí dodržovat požadavky na chovaní robotů dané jednotlivými servery (robots.txt apod.). |
Seznam odborné literatury |
Web Client Programming with Perl
Clinton Wong O'Reilly, 1st Edition March 1997 Foundations of Statistical Natural Language Processing Christopher D. Manning, Hinrich Schutze The MIT Press, 1999 |
Předběžná náplň práce |
Pro řadu metod z oblasti zpracování přirozeného jazyka a komputační lingvistiky je dostatek vstupních textových dat naprostou nezbytností. Jejich získání však může být z mnoha důvodů problematické a jednou z možností, jak data získat, je využít dokumenty, které jsou dostupné na internetu. Kvalita takových testů je však různá a data je nutné filtrovat a čistit. Cílem práce je implementovat robota - program, který bude automaticky procházet webové stránky, stahovat, ukládat a čistit české texty. Tneto program musí dodržovat požadvky na chvoání robotů dané jednotlivými servery (robots.txt apod.). |