Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Extrakce dat z HTML

Název práce v češtině:	Extrakce dat z HTML
Název v anglickém jazyce:	HTML data extraction
Akademický rok vypsání:	2007/2008
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	RNDr. Michal Kopecký, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	15.11.2007
Datum zadání:	15.11.2007
Datum a čas obhajoby:	08.09.2008 00:00
Datum odevzdání elektronické podoby:	08.09.2008
Datum proběhlé obhajoby:	08.09.2008
Oponenti:	RNDr. Alan Eckhardt, Ph.D.

Zásady pro vypracování

Cílem této práce je navrhnout a implementovat nástroj pro efektivní extrakci dat z webu, založeném na XML technologiích, případně v kombinaci s dalšími technikami pro vyhledání relevantních částí.
Výsledné dílo by mělo v co nejvyšší míře využívat existující standardy.

S jeho použitím by mělo být možné:
- definovat základní oblasti pro extrakci pomocí aplikace s grafickým uživatelským rozhraním,
- detailní konfiguraci požadavků pomocí příkazové řádky a/nebo konfiguračního souboru,
- opakovaně dávkově extrahovat data ze zvolené stránky či stránek a ukládat je pro případné další zpracování

Zvažte možnost navigace přes několik navazujících HTML stránek s využitím v nich definovaných odkazů.

Seznam odborné literatury

[1] Myllymaki, J.: Effective Web Data Extraction with Standard XML Technologies, Proceedings of the 10th International Conference on the World Wide Web, ACM, 1-58113-348-0/01/0005, 2001.
[2] Mlýnková, I., Pokorný, J., Richta, K., Toman, K., Toman, V.: Technologie XML. Skripta. Karlova Univerzita, Praha, Česká republika, 2006.