Porovnávání cen v internetových obchodech
Název práce v češtině: | Porovnávání cen v internetových obchodech |
---|---|
Název v anglickém jazyce: | Comparing Prices in Internet Shops |
Akademický rok vypsání: | 2007/2008 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Miroslav Spousta |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 22.02.2008 |
Datum zadání: | 22.02.2008 |
Datum a čas obhajoby: | 26.05.2008 00:00 |
Datum odevzdání elektronické podoby: | 26.05.2008 |
Datum proběhlé obhajoby: | 26.05.2008 |
Oponenti: | RNDr. Jiří Semecký, Ph.D. |
Zásady pro vypracování |
Cílem práce je navrhnout a implementovat systém určený pro porovnávání cen v internetových obchodech.
Systém bude obsahovat následující součásti: 1) Získávání dat z obchodů. Extrakce bude probíhat automaticky na základě trénovacích příkladů zadaných uživatelem, využito bude metod strojového učení s učitelem. 2) Zpracování získaných dat. Záznamy budou pomocí klasifikačních algoritmů automaticky přiřazovány k odpovídajícím produktům. 3) Prezentační rozhraní. Jeho součástí bude katalog produktů a fulltextové a parametrické vyhledávání. Práce se soustředí na nalezení nejvhodnějších algoritmů pro extrakci a zpracování dat, součástí bude i vyhodnocení jejich úspěšnosti na testovacích datech a srovnání s dalšími algoritmy. |
Seznam odborné literatury |
R. Baeza-Yates and B. Ribeiro-Neto (1999): Modern Information Retrieval, ACM Press Series/Addison Wesley, New York.
Bilenko M., Basu S. and Sahami M. (2005): Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping, In Proc. of the Fifth International Conference on Data Mining (ICDM-2005), Houston, TX, pp. 58-65. Bilenko M. and Mooney R. J. (2003): Adaptive Duplicate Detection Using Learnable String Similarity Measures, in Proc. of the Ninth ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining (KDD-2003), Washington DC, pp. 39-48. Salton G. and Buckley C. (1988): Term Weighting Approaches in Automatic Text Retrieval, Information Processing and Management, 24(5):513-523. |
Předběžná náplň práce |
Cílem práce je navrhnout a implementovat systém určený pro porovnávání cen v internetových obchodech.
Systém bude obsahovat následující součásti: 1) Získávání dat z obchodů. Extrakce bude probíhat automaticky na základě trénovacích příkladů zadaných uživatelem, využito bude metod strojového učení s učitelem. 2) Zpracování získaných dat. Záznamy budou pomocí klasifikačních algoritmů automaticky přiřazovány k odpovídajícím produktům. 3) Prezentační rozhraní. Jeho součástí bude katalog produktů a fulltextové a parametrické vyhledávání. Práce se soustředí na nalezení nejvhodnějších algoritmů pro extrakci a zpracování dat, součástí bude i vyhodnocení jejich úspěšnosti na testovacích datech a srovnání s dalšími algoritmy. |
Předběžná náplň práce v anglickém jazyce |
The goal of the work is to design and implement a system for comparing prices in Internet shops. The system will include the following components:
1) Retrieval of data from the shops. The extraction will work automatically based on training examples provided by the user, supervised machine learning techniques will be used in order to carry out this task. 2) Processing of the retrieved data. The records will be automatically assigned to the corresponding products by using classification algorithms. 3) Presentation interface. It will contain a product catalog and it will support full-text and parametric search. The work will focus on finding the most suitable algorithms for extraction and processing of the data, it will also contain evaluation of those algorithms on a test data set and their comparison with other algorithms. |