Automatická extrakce dat z webových stránek
Thesis title in Czech: | Automatická extrakce dat z webových stránek |
---|---|
Thesis title in English: | Automatic extraction of data from web pages |
Academic year of topic announcement: | 2005/2006 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | RNDr. Jiří Adámek, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 08.11.2005 |
Date of assignment: | 08.11.2005 |
Date and time of defence: | 18.09.2006 00:00 |
Date of electronic submission: | 18.09.2006 |
Date of submission of printed version: | 18.09.2006 |
Date of proceeded defence: | 18.09.2006 |
Opponents: | doc. Mgr. Martin Nečaský, Ph.D. |
Guidelines |
Cílem práce je vytvořit software pro automatickou extrakci dat z webových stránek. Extrakce dat je řízena skriptem, který definuje strukturu stránek, určuje, která data mají být extrahována, a jakou formu má výstup (obsahující vyextrahovaná data). Návrh jazyka pro vytváření těchto skriptů je součástí práce.
Vzhledem k tomu, že velké množství webových stránek není korektními XHTML dokumenty, nemohou být k extrakci dat použity XML nástroje (parsery, jazyky pro dotazování nad XML dokumenty). Součástí vytvořeného software bude uživatelské rozhraní pro pohodlnou práci se skripty, umožňující náhledy vyextrahovaných dat pro daný skript a danou webovou stránku a dále zobrazující text stránky (bez obrázků apod.) se zvýrazněnými daty, definovanými skriptem. Jazyk pro vytváření skriptů i samotný nástroj budou podporovat dávkové zpracování velkého množství stránek se stejnou/podobnou strukturou. |
References |
E. Agichtein, E. Eskin, L. Gravano: Combining Strategies for Extracting Relations from Text Collections. In the proceedings of the ACM SIGMOD Workshop on Data Mining and Knowledge Discovery (DMKD), 2000
M. Uschold: Where are the Semantics in the Semantic Web? AI Magazine, v.24 n.3, p.25-36, September 2003 V. Sklenak: Metadata, sémantika a sémantický web. INFORUM 2004: 10. konference o profesionálních informacních zdrojích, Praha, 25.–27. 5. 2004 |
Preliminary scope of work |
Automatická extrakce dat z webových stránek řízená skriptem, který definuje strukturu stránek, data, která mají být extrahována, a formu má výstupu. |