Extrakce dat z HTML
Název práce v češtině: | Extrakce dat z HTML |
---|---|
Název v anglickém jazyce: | HTML data extraction |
Akademický rok vypsání: | 2007/2008 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Michal Kopecký, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 15.11.2007 |
Datum zadání: | 15.11.2007 |
Datum a čas obhajoby: | 08.09.2008 00:00 |
Datum odevzdání elektronické podoby: | 08.09.2008 |
Datum proběhlé obhajoby: | 08.09.2008 |
Oponenti: | RNDr. Alan Eckhardt, Ph.D. |
Zásady pro vypracování |
Cílem této práce je navrhnout a implementovat nástroj pro efektivní extrakci dat z webu, založeném na XML technologiích, případně v kombinaci s dalšími technikami pro vyhledání relevantních částí.
Výsledné dílo by mělo v co nejvyšší míře využívat existující standardy. S jeho použitím by mělo být možné: - definovat základní oblasti pro extrakci pomocí aplikace s grafickým uživatelským rozhraním, - detailní konfiguraci požadavků pomocí příkazové řádky a/nebo konfiguračního souboru, - opakovaně dávkově extrahovat data ze zvolené stránky či stránek a ukládat je pro případné další zpracování Zvažte možnost navigace přes několik navazujících HTML stránek s využitím v nich definovaných odkazů. |
Seznam odborné literatury |
[1] Myllymaki, J.: Effective Web Data Extraction with Standard XML Technologies, Proceedings of the 10th International Conference on the World Wide Web, ACM, 1-58113-348-0/01/0005, 2001.
[2] Mlýnková, I., Pokorný, J., Richta, K., Toman, K., Toman, V.: Technologie XML. Skripta. Karlova Univerzita, Praha, Česká republika, 2006. |