Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Extrakce informací z polostrukturálních dat
Thesis title in Czech: Extrakce informací z polostrukturálních dat
Thesis title in English: Information extraction from semistructured data
Key words: web, konceptualizace, strojové zpracování
English key words: web, conceptualization, machine processing
Academic year of topic announcement: 2011/2012
Thesis type: diploma thesis
Thesis language: čeština
Department: Department of Software Engineering (32-KSI)
Supervisor: prof. RNDr. Peter Vojtáš, DrSc.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 10.11.2011
Date of assignment: 10.11.2011
Confirmed by Study dept. on: 01.12.2011
Guidelines
Cílem práce je vytvořit funkční prototyp aplikace, jehož úkolem je extrahovat data z internetových obchodů a automatickou cestou zjistit hodnoty a názvy atributů, které popisují danou doménu (kategorii produktů).
Součástí aplikace by mělo být GUI, které má za úkol vizuálně prezentovat výsledky tak, aby uživatel uměl odhadnout správnost výpočtu.
Zadání se může v průběhu zpracování tématu upravit či doplnit.
References
Dušan Maruščák: Ontology mapping and mining with user preference, Diploma Thesis MFF UK, 2007
Sam Ruby, Dave Thomas, David Heinemeier Hansson : Agile Web Development with Rails, The Pragmatic Bookshelf, 2011
http://guides.rubyonrails.com
Paolo Perrotta: Metaprogramming Ruby: Program Like the Ruby Pros, The Pragmatic Bookshelf, 2010
Preliminary scope of work
Přestože se internetové obchody snaží produkty zobrazovat ve strukturované podobě, strojové čtení těchto dat může být náročné. Mezi dílčí úkoly bude proto patřit vytvoření frameworku na stahování, parsování dokumentů, analýzu atributů a GUI.
Zadání se může v průběhu zpracování tématu upravit či doplnit.
Preliminary scope of work in English
Although e-commerce websites attempt to display presented products in a structured form, the machine data processing can be challenging due to its semantic structure. Among the sub-tasks will therefore be a creation of a framework for downloading, parsing documents, attributes’ analysis and GUI.
The requirements may be modified in the future.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html