Extrakce informací z polostrukturálních dat
Thesis title in Czech: | Extrakce informací z polostrukturálních dat |
---|---|
Thesis title in English: | Information extraction from semistructured data |
Key words: | web, konceptualizace, strojové zpracování |
English key words: | web, conceptualization, machine processing |
Academic year of topic announcement: | 2011/2012 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | prof. RNDr. Peter Vojtáš, DrSc. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 10.11.2011 |
Date of assignment: | 10.11.2011 |
Confirmed by Study dept. on: | 01.12.2011 |
Guidelines |
Cílem práce je vytvořit funkční prototyp aplikace, jehož úkolem je extrahovat data z internetových obchodů a automatickou cestou zjistit hodnoty a názvy atributů, které popisují danou doménu (kategorii produktů).
Součástí aplikace by mělo být GUI, které má za úkol vizuálně prezentovat výsledky tak, aby uživatel uměl odhadnout správnost výpočtu. Zadání se může v průběhu zpracování tématu upravit či doplnit. |
References |
Dušan Maruščák: Ontology mapping and mining with user preference, Diploma Thesis MFF UK, 2007
Sam Ruby, Dave Thomas, David Heinemeier Hansson : Agile Web Development with Rails, The Pragmatic Bookshelf, 2011 http://guides.rubyonrails.com Paolo Perrotta: Metaprogramming Ruby: Program Like the Ruby Pros, The Pragmatic Bookshelf, 2010 |
Preliminary scope of work |
Přestože se internetové obchody snaží produkty zobrazovat ve strukturované podobě, strojové čtení těchto dat může být náročné. Mezi dílčí úkoly bude proto patřit vytvoření frameworku na stahování, parsování dokumentů, analýzu atributů a GUI.
Zadání se může v průběhu zpracování tématu upravit či doplnit. |
Preliminary scope of work in English |
Although e-commerce websites attempt to display presented products in a structured form, the machine data processing can be challenging due to its semantic structure. Among the sub-tasks will therefore be a creation of a framework for downloading, parsing documents, attributes’ analysis and GUI.
The requirements may be modified in the future. |