Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Extrakce dat z HTML
Thesis title in Czech: Extrakce dat z HTML
Thesis title in English: HTML data extraction
Academic year of topic announcement: 2007/2008
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: RNDr. Michal Kopecký, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 15.11.2007
Date of assignment: 15.11.2007
Date and time of defence: 08.09.2008 00:00
Date of electronic submission:08.09.2008
Date of proceeded defence: 08.09.2008
Opponents: RNDr. Alan Eckhardt, Ph.D.
 
 
 
Guidelines
Cílem této práce je navrhnout a implementovat nástroj pro efektivní extrakci dat z webu, založeném na XML technologiích, případně v kombinaci s dalšími technikami pro vyhledání relevantních částí.
Výsledné dílo by mělo v co nejvyšší míře využívat existující standardy.

S jeho použitím by mělo být možné:
- definovat základní oblasti pro extrakci pomocí aplikace s grafickým uživatelským rozhraním,
- detailní konfiguraci požadavků pomocí příkazové řádky a/nebo konfiguračního souboru,
- opakovaně dávkově extrahovat data ze zvolené stránky či stránek a ukládat je pro případné další zpracování

Zvažte možnost navigace přes několik navazujících HTML stránek s využitím v nich definovaných odkazů.
References
[1] Myllymaki, J.: Effective Web Data Extraction with Standard XML Technologies, Proceedings of the 10th International Conference on the World Wide Web, ACM, 1-58113-348-0/01/0005, 2001.
[2] Mlýnková, I., Pokorný, J., Richta, K., Toman, K., Toman, V.: Technologie XML. Skripta. Karlova Univerzita, Praha, Česká republika, 2006.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html