Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Extrakce informací z polostrukturálních dat
Název práce v češtině: Extrakce informací z polostrukturálních dat
Název v anglickém jazyce: Information extraction from semistructured data
Klíčová slova: web, konceptualizace, strojové zpracování
Klíčová slova anglicky: web, conceptualization, machine processing
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: prof. RNDr. Peter Vojtáš, DrSc.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 10.11.2011
Datum zadání: 10.11.2011
Datum potvrzení stud. oddělením: 01.12.2011
Zásady pro vypracování
Cílem práce je vytvořit funkční prototyp aplikace, jehož úkolem je extrahovat data z internetových obchodů a automatickou cestou zjistit hodnoty a názvy atributů, které popisují danou doménu (kategorii produktů).
Součástí aplikace by mělo být GUI, které má za úkol vizuálně prezentovat výsledky tak, aby uživatel uměl odhadnout správnost výpočtu.
Zadání se může v průběhu zpracování tématu upravit či doplnit.
Seznam odborné literatury
Dušan Maruščák: Ontology mapping and mining with user preference, Diploma Thesis MFF UK, 2007
Sam Ruby, Dave Thomas, David Heinemeier Hansson : Agile Web Development with Rails, The Pragmatic Bookshelf, 2011
http://guides.rubyonrails.com
Paolo Perrotta: Metaprogramming Ruby: Program Like the Ruby Pros, The Pragmatic Bookshelf, 2010
Předběžná náplň práce
Přestože se internetové obchody snaží produkty zobrazovat ve strukturované podobě, strojové čtení těchto dat může být náročné. Mezi dílčí úkoly bude proto patřit vytvoření frameworku na stahování, parsování dokumentů, analýzu atributů a GUI.
Zadání se může v průběhu zpracování tématu upravit či doplnit.
Předběžná náplň práce v anglickém jazyce
Although e-commerce websites attempt to display presented products in a structured form, the machine data processing can be challenging due to its semantic structure. Among the sub-tasks will therefore be a creation of a framework for downloading, parsing documents, attributes’ analysis and GUI.
The requirements may be modified in the future.
 
Univerzita Karlova | Informační systém UK