Extrakce informací z polostrukturálních dat
Název práce v češtině: | Extrakce informací z polostrukturálních dat |
---|---|
Název v anglickém jazyce: | Information extraction from semistructured data |
Klíčová slova: | web, konceptualizace, strojové zpracování |
Klíčová slova anglicky: | web, conceptualization, machine processing |
Akademický rok vypsání: | 2011/2012 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | prof. RNDr. Peter Vojtáš, DrSc. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 10.11.2011 |
Datum zadání: | 10.11.2011 |
Datum potvrzení stud. oddělením: | 01.12.2011 |
Zásady pro vypracování |
Cílem práce je vytvořit funkční prototyp aplikace, jehož úkolem je extrahovat data z internetových obchodů a automatickou cestou zjistit hodnoty a názvy atributů, které popisují danou doménu (kategorii produktů).
Součástí aplikace by mělo být GUI, které má za úkol vizuálně prezentovat výsledky tak, aby uživatel uměl odhadnout správnost výpočtu. Zadání se může v průběhu zpracování tématu upravit či doplnit. |
Seznam odborné literatury |
Dušan Maruščák: Ontology mapping and mining with user preference, Diploma Thesis MFF UK, 2007
Sam Ruby, Dave Thomas, David Heinemeier Hansson : Agile Web Development with Rails, The Pragmatic Bookshelf, 2011 http://guides.rubyonrails.com Paolo Perrotta: Metaprogramming Ruby: Program Like the Ruby Pros, The Pragmatic Bookshelf, 2010 |
Předběžná náplň práce |
Přestože se internetové obchody snaží produkty zobrazovat ve strukturované podobě, strojové čtení těchto dat může být náročné. Mezi dílčí úkoly bude proto patřit vytvoření frameworku na stahování, parsování dokumentů, analýzu atributů a GUI.
Zadání se může v průběhu zpracování tématu upravit či doplnit. |
Předběžná náplň práce v anglickém jazyce |
Although e-commerce websites attempt to display presented products in a structured form, the machine data processing can be challenging due to its semantic structure. Among the sub-tasks will therefore be a creation of a framework for downloading, parsing documents, attributes’ analysis and GUI.
The requirements may be modified in the future. |