Automatická extrakce dat z webových stránek
Název práce v češtině: | Automatická extrakce dat z webových stránek |
---|---|
Název v anglickém jazyce: | Automatic extraction of data from web pages |
Akademický rok vypsání: | 2005/2006 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Jiří Adámek, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 08.11.2005 |
Datum zadání: | 08.11.2005 |
Datum a čas obhajoby: | 18.09.2006 00:00 |
Datum odevzdání elektronické podoby: | 18.09.2006 |
Datum odevzdání tištěné podoby: | 18.09.2006 |
Datum proběhlé obhajoby: | 18.09.2006 |
Oponenti: | doc. Mgr. Martin Nečaský, Ph.D. |
Zásady pro vypracování |
Cílem práce je vytvořit software pro automatickou extrakci dat z webových stránek. Extrakce dat je řízena skriptem, který definuje strukturu stránek, určuje, která data mají být extrahována, a jakou formu má výstup (obsahující vyextrahovaná data). Návrh jazyka pro vytváření těchto skriptů je součástí práce.
Vzhledem k tomu, že velké množství webových stránek není korektními XHTML dokumenty, nemohou být k extrakci dat použity XML nástroje (parsery, jazyky pro dotazování nad XML dokumenty). Součástí vytvořeného software bude uživatelské rozhraní pro pohodlnou práci se skripty, umožňující náhledy vyextrahovaných dat pro daný skript a danou webovou stránku a dále zobrazující text stránky (bez obrázků apod.) se zvýrazněnými daty, definovanými skriptem. Jazyk pro vytváření skriptů i samotný nástroj budou podporovat dávkové zpracování velkého množství stránek se stejnou/podobnou strukturou. |
Seznam odborné literatury |
E. Agichtein, E. Eskin, L. Gravano: Combining Strategies for Extracting Relations from Text Collections. In the proceedings of the ACM SIGMOD Workshop on Data Mining and Knowledge Discovery (DMKD), 2000
M. Uschold: Where are the Semantics in the Semantic Web? AI Magazine, v.24 n.3, p.25-36, September 2003 V. Sklenak: Metadata, sémantika a sémantický web. INFORUM 2004: 10. konference o profesionálních informacních zdrojích, Praha, 25.–27. 5. 2004 |
Předběžná náplň práce |
Automatická extrakce dat z webových stránek řízená skriptem, který definuje strukturu stránek, data, která mají být extrahována, a formu má výstupu. |