Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Automatická extrakce dat z webových stránek
Název práce v češtině: Automatická extrakce dat z webových stránek
Název v anglickém jazyce: Automatic extraction of data from web pages
Akademický rok vypsání: 2005/2006
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Jiří Adámek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 08.11.2005
Datum zadání: 08.11.2005
Datum a čas obhajoby: 18.09.2006 00:00
Datum odevzdání elektronické podoby:18.09.2006
Datum odevzdání tištěné podoby:18.09.2006
Datum proběhlé obhajoby: 18.09.2006
Oponenti: doc. Mgr. Martin Nečaský, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce je vytvořit software pro automatickou extrakci dat z webových stránek. Extrakce dat je řízena skriptem, který definuje strukturu stránek, určuje, která data mají být extrahována, a jakou formu má výstup (obsahující vyextrahovaná data). Návrh jazyka pro vytváření těchto skriptů je součástí práce.

Vzhledem k tomu, že velké množství webových stránek není korektními XHTML dokumenty, nemohou být k extrakci dat použity XML nástroje (parsery, jazyky pro dotazování nad XML dokumenty).

Součástí vytvořeného software bude uživatelské rozhraní pro pohodlnou práci se skripty, umožňující náhledy vyextrahovaných dat pro daný skript a danou webovou stránku a dále zobrazující text stránky (bez obrázků apod.) se zvýrazněnými daty, definovanými skriptem.

Jazyk pro vytváření skriptů i samotný nástroj budou podporovat dávkové zpracování velkého množství stránek se stejnou/podobnou strukturou.
Seznam odborné literatury
E. Agichtein, E. Eskin, L. Gravano: Combining Strategies for Extracting Relations from Text Collections. In the proceedings of the ACM SIGMOD Workshop on Data Mining and Knowledge Discovery (DMKD), 2000

M. Uschold: Where are the Semantics in the Semantic Web? AI Magazine, v.24 n.3, p.25-36, September 2003

V. Sklenak: Metadata, sémantika a sémantický web. INFORUM 2004: 10. konference o profesionálních informacních zdrojích, Praha, 25.–27. 5. 2004
Předběžná náplň práce
Automatická extrakce dat z webových stránek řízená skriptem, který definuje strukturu stránek, data, která mají být extrahována, a formu má výstupu.
 
Univerzita Karlova | Informační systém UK