Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatická extrakce dat z webových stránek
Thesis title in Czech: Automatická extrakce dat z webových stránek
Thesis title in English: Automatic extraction of data from web pages
Academic year of topic announcement: 2005/2006
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: RNDr. Jiří Adámek, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 08.11.2005
Date of assignment: 08.11.2005
Date and time of defence: 18.09.2006 00:00
Date of electronic submission:18.09.2006
Date of submission of printed version:18.09.2006
Date of proceeded defence: 18.09.2006
Opponents: doc. Mgr. Martin Nečaský, Ph.D.
 
 
 
Guidelines
Cílem práce je vytvořit software pro automatickou extrakci dat z webových stránek. Extrakce dat je řízena skriptem, který definuje strukturu stránek, určuje, která data mají být extrahována, a jakou formu má výstup (obsahující vyextrahovaná data). Návrh jazyka pro vytváření těchto skriptů je součástí práce.

Vzhledem k tomu, že velké množství webových stránek není korektními XHTML dokumenty, nemohou být k extrakci dat použity XML nástroje (parsery, jazyky pro dotazování nad XML dokumenty).

Součástí vytvořeného software bude uživatelské rozhraní pro pohodlnou práci se skripty, umožňující náhledy vyextrahovaných dat pro daný skript a danou webovou stránku a dále zobrazující text stránky (bez obrázků apod.) se zvýrazněnými daty, definovanými skriptem.

Jazyk pro vytváření skriptů i samotný nástroj budou podporovat dávkové zpracování velkého množství stránek se stejnou/podobnou strukturou.
References
E. Agichtein, E. Eskin, L. Gravano: Combining Strategies for Extracting Relations from Text Collections. In the proceedings of the ACM SIGMOD Workshop on Data Mining and Knowledge Discovery (DMKD), 2000

M. Uschold: Where are the Semantics in the Semantic Web? AI Magazine, v.24 n.3, p.25-36, September 2003

V. Sklenak: Metadata, sémantika a sémantický web. INFORUM 2004: 10. konference o profesionálních informacních zdrojích, Praha, 25.–27. 5. 2004
Preliminary scope of work
Automatická extrakce dat z webových stránek řízená skriptem, který definuje strukturu stránek, data, která mají být extrahována, a formu má výstupu.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html