Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Porovnávání cen v internetových obchodech
Thesis title in Czech: Porovnávání cen v internetových obchodech
Thesis title in English: Comparing Prices in Internet Shops
Academic year of topic announcement: 2007/2008
Thesis type: diploma thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Miroslav Spousta
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 22.02.2008
Date of assignment: 22.02.2008
Date and time of defence: 26.05.2008 00:00
Date of electronic submission:26.05.2008
Date of proceeded defence: 26.05.2008
Opponents: RNDr. Jiří Semecký, Ph.D.
Cílem práce je navrhnout a implementovat systém určený pro porovnávání cen v internetových obchodech.

Systém bude obsahovat následující součásti:

1) Získávání dat z obchodů. Extrakce bude probíhat automaticky na základě trénovacích příkladů zadaných uživatelem, využito bude metod strojového učení s učitelem.

2) Zpracování získaných dat. Záznamy budou pomocí klasifikačních algoritmů automaticky přiřazovány k odpovídajícím produktům.

3) Prezentační rozhraní. Jeho součástí bude katalog produktů a fulltextové a parametrické vyhledávání.

Práce se soustředí na nalezení nejvhodnějších algoritmů pro extrakci a zpracování dat, součástí bude i vyhodnocení jejich úspěšnosti na testovacích datech a srovnání s dalšími algoritmy.
R. Baeza-Yates and B. Ribeiro-Neto (1999): Modern Information Retrieval, ACM Press Series/Addison Wesley, New York.

Bilenko M., Basu S. and Sahami M. (2005): Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping, In Proc. of the Fifth International Conference on Data Mining (ICDM-2005), Houston, TX, pp. 58-65.

Bilenko M. and Mooney R. J. (2003): Adaptive Duplicate Detection Using Learnable String Similarity Measures, in Proc. of the Ninth ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining (KDD-2003), Washington DC, pp. 39-48.

Salton G. and Buckley C. (1988): Term Weighting Approaches in Automatic Text Retrieval, Information Processing and Management, 24(5):513-523.
Preliminary scope of work
Cílem práce je navrhnout a implementovat systém určený pro porovnávání cen v internetových obchodech.

Systém bude obsahovat následující součásti:

1) Získávání dat z obchodů. Extrakce bude probíhat automaticky na základě trénovacích příkladů zadaných uživatelem, využito bude metod strojového učení s učitelem.

2) Zpracování získaných dat. Záznamy budou pomocí klasifikačních algoritmů automaticky přiřazovány k odpovídajícím produktům.

3) Prezentační rozhraní. Jeho součástí bude katalog produktů a fulltextové a parametrické vyhledávání.

Práce se soustředí na nalezení nejvhodnějších algoritmů pro extrakci a zpracování dat, součástí bude i vyhodnocení jejich úspěšnosti na testovacích datech a srovnání s dalšími algoritmy.
Preliminary scope of work in English
The goal of the work is to design and implement a system for comparing prices in Internet shops. The system will include the following components:

1) Retrieval of data from the shops. The extraction will work automatically based on training examples provided by the user,
supervised machine learning techniques will be used in order to carry out this task.

2) Processing of the retrieved data. The records will be automatically assigned to the corresponding products by using classification algorithms.

3) Presentation interface. It will contain a product catalog and it will support full-text and parametric search.

The work will focus on finding the most suitable algorithms for extraction and processing of the data, it will also contain evaluation of those algorithms on a test data set and their comparison with other algorithms.
Charles University | Information system of Charles University |