Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Automatická extrakce dat z webových stránek

Název práce v češtině:	Automatická extrakce dat z webových stránek
Název v anglickém jazyce:	Automatic extraction of data from web pages
Akademický rok vypsání:	2005/2006
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	RNDr. Jiří Adámek, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	08.11.2005
Datum zadání:	08.11.2005
Datum a čas obhajoby:	18.09.2006 00:00
Datum odevzdání elektronické podoby:	18.09.2006
Datum odevzdání tištěné podoby:	18.09.2006
Datum proběhlé obhajoby:	18.09.2006
Oponenti:	doc. Mgr. Martin Nečaský, Ph.D.

Zásady pro vypracování

Cílem práce je vytvořit software pro automatickou extrakci dat z webových stránek. Extrakce dat je řízena skriptem, který definuje strukturu stránek, určuje, která data mají být extrahována, a jakou formu má výstup (obsahující vyextrahovaná data). Návrh jazyka pro vytváření těchto skriptů je součástí práce.

Vzhledem k tomu, že velké množství webových stránek není korektními XHTML dokumenty, nemohou být k extrakci dat použity XML nástroje (parsery, jazyky pro dotazování nad XML dokumenty).

Součástí vytvořeného software bude uživatelské rozhraní pro pohodlnou práci se skripty, umožňující náhledy vyextrahovaných dat pro daný skript a danou webovou stránku a dále zobrazující text stránky (bez obrázků apod.) se zvýrazněnými daty, definovanými skriptem.

Jazyk pro vytváření skriptů i samotný nástroj budou podporovat dávkové zpracování velkého množství stránek se stejnou/podobnou strukturou.

Seznam odborné literatury

E. Agichtein, E. Eskin, L. Gravano: Combining Strategies for Extracting Relations from Text Collections. In the proceedings of the ACM SIGMOD Workshop on Data Mining and Knowledge Discovery (DMKD), 2000

M. Uschold: Where are the Semantics in the Semantic Web? AI Magazine, v.24 n.3, p.25-36, September 2003

V. Sklenak: Metadata, sémantika a sémantický web. INFORUM 2004: 10. konference o profesionálních informacních zdrojích, Praha, 25.–27. 5. 2004

Předběžná náplň práce

Automatická extrakce dat z webových stránek řízená skriptem, který definuje strukturu stránek, data, která mají být extrahována, a formu má výstupu.