Extrakce dat z HTML
Thesis title in Czech: | Extrakce dat z HTML |
---|---|
Thesis title in English: | HTML data extraction |
Academic year of topic announcement: | 2007/2008 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | RNDr. Michal Kopecký, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 15.11.2007 |
Date of assignment: | 15.11.2007 |
Date and time of defence: | 08.09.2008 00:00 |
Date of electronic submission: | 08.09.2008 |
Date of proceeded defence: | 08.09.2008 |
Opponents: | RNDr. Alan Eckhardt, Ph.D. |
Guidelines |
Cílem této práce je navrhnout a implementovat nástroj pro efektivní extrakci dat z webu, založeném na XML technologiích, případně v kombinaci s dalšími technikami pro vyhledání relevantních částí.
Výsledné dílo by mělo v co nejvyšší míře využívat existující standardy. S jeho použitím by mělo být možné: - definovat základní oblasti pro extrakci pomocí aplikace s grafickým uživatelským rozhraním, - detailní konfiguraci požadavků pomocí příkazové řádky a/nebo konfiguračního souboru, - opakovaně dávkově extrahovat data ze zvolené stránky či stránek a ukládat je pro případné další zpracování Zvažte možnost navigace přes několik navazujících HTML stránek s využitím v nich definovaných odkazů. |
References |
[1] Myllymaki, J.: Effective Web Data Extraction with Standard XML Technologies, Proceedings of the 10th International Conference on the World Wide Web, ACM, 1-58113-348-0/01/0005, 2001.
[2] Mlýnková, I., Pokorný, J., Richta, K., Toman, K., Toman, V.: Technologie XML. Skripta. Karlova Univerzita, Praha, Česká republika, 2006. |