Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Extrakce dat z HTML
Název práce v češtině: Extrakce dat z HTML
Název v anglickém jazyce: HTML data extraction
Akademický rok vypsání: 2007/2008
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Michal Kopecký, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 15.11.2007
Datum zadání: 15.11.2007
Datum a čas obhajoby: 08.09.2008 00:00
Datum odevzdání elektronické podoby:08.09.2008
Datum proběhlé obhajoby: 08.09.2008
Oponenti: RNDr. Alan Eckhardt, Ph.D.
 
 
 
Zásady pro vypracování
Cílem této práce je navrhnout a implementovat nástroj pro efektivní extrakci dat z webu, založeném na XML technologiích, případně v kombinaci s dalšími technikami pro vyhledání relevantních částí.
Výsledné dílo by mělo v co nejvyšší míře využívat existující standardy.

S jeho použitím by mělo být možné:
- definovat základní oblasti pro extrakci pomocí aplikace s grafickým uživatelským rozhraním,
- detailní konfiguraci požadavků pomocí příkazové řádky a/nebo konfiguračního souboru,
- opakovaně dávkově extrahovat data ze zvolené stránky či stránek a ukládat je pro případné další zpracování

Zvažte možnost navigace přes několik navazujících HTML stránek s využitím v nich definovaných odkazů.
Seznam odborné literatury
[1] Myllymaki, J.: Effective Web Data Extraction with Standard XML Technologies, Proceedings of the 10th International Conference on the World Wide Web, ACM, 1-58113-348-0/01/0005, 2001.
[2] Mlýnková, I., Pokorný, J., Richta, K., Toman, K., Toman, V.: Technologie XML. Skripta. Karlova Univerzita, Praha, Česká republika, 2006.
 
Univerzita Karlova | Informační systém UK