Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 336)
Detail práce
   Přihlásit přes CAS
Porovnávání cen v internetových obchodech
Název práce v češtině: Porovnávání cen v internetových obchodech
Název v anglickém jazyce: Comparing Prices in Internet Shops
Akademický rok vypsání: 2007/2008
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Miroslav Spousta
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 22.02.2008
Datum zadání: 22.02.2008
Datum a čas obhajoby: 26.05.2008 00:00
Datum odevzdání elektronické podoby:26.05.2008
Datum proběhlé obhajoby: 26.05.2008
Oponenti: RNDr. Jiří Semecký, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce je navrhnout a implementovat systém určený pro porovnávání cen v internetových obchodech.

Systém bude obsahovat následující součásti:

1) Získávání dat z obchodů. Extrakce bude probíhat automaticky na základě trénovacích příkladů zadaných uživatelem, využito bude metod strojového učení s učitelem.

2) Zpracování získaných dat. Záznamy budou pomocí klasifikačních algoritmů automaticky přiřazovány k odpovídajícím produktům.

3) Prezentační rozhraní. Jeho součástí bude katalog produktů a fulltextové a parametrické vyhledávání.

Práce se soustředí na nalezení nejvhodnějších algoritmů pro extrakci a zpracování dat, součástí bude i vyhodnocení jejich úspěšnosti na testovacích datech a srovnání s dalšími algoritmy.
Seznam odborné literatury
R. Baeza-Yates and B. Ribeiro-Neto (1999): Modern Information Retrieval, ACM Press Series/Addison Wesley, New York.

Bilenko M., Basu S. and Sahami M. (2005): Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping, In Proc. of the Fifth International Conference on Data Mining (ICDM-2005), Houston, TX, pp. 58-65.

Bilenko M. and Mooney R. J. (2003): Adaptive Duplicate Detection Using Learnable String Similarity Measures, in Proc. of the Ninth ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining (KDD-2003), Washington DC, pp. 39-48.

Salton G. and Buckley C. (1988): Term Weighting Approaches in Automatic Text Retrieval, Information Processing and Management, 24(5):513-523.
Předběžná náplň práce
Cílem práce je navrhnout a implementovat systém určený pro porovnávání cen v internetových obchodech.

Systém bude obsahovat následující součásti:

1) Získávání dat z obchodů. Extrakce bude probíhat automaticky na základě trénovacích příkladů zadaných uživatelem, využito bude metod strojového učení s učitelem.

2) Zpracování získaných dat. Záznamy budou pomocí klasifikačních algoritmů automaticky přiřazovány k odpovídajícím produktům.

3) Prezentační rozhraní. Jeho součástí bude katalog produktů a fulltextové a parametrické vyhledávání.

Práce se soustředí na nalezení nejvhodnějších algoritmů pro extrakci a zpracování dat, součástí bude i vyhodnocení jejich úspěšnosti na testovacích datech a srovnání s dalšími algoritmy.
Předběžná náplň práce v anglickém jazyce
The goal of the work is to design and implement a system for comparing prices in Internet shops. The system will include the following components:

1) Retrieval of data from the shops. The extraction will work automatically based on training examples provided by the user,
supervised machine learning techniques will be used in order to carry out this task.

2) Processing of the retrieved data. The records will be automatically assigned to the corresponding products by using classification algorithms.

3) Presentation interface. It will contain a product catalog and it will support full-text and parametric search.

The work will focus on finding the most suitable algorithms for extraction and processing of the data, it will also contain evaluation of those algorithms on a test data set and their comparison with other algorithms.
 
Univerzita Karlova | Informační systém UK