This course is intended to provide the student with an understanding of the fundamental concepts and advanced techniques for text-based information systems on the Web. This course covers efficient Web indexing, searching and crawling; Clustering, classification, text mining. The student will implement a project from diverse topics in the Web information retrieval.
Last update: T_KSI (24.05.2005)
Kurs je zaměřen na pochopení základních konceptů a pokročilých technik pro fulltextové webové vyhledávací systémy. Kurs pokrývá efektivní indexování, vyhledávání a procházení webu; Shlukování a dobývání informací. Účastník kursu bude implementovat projekt z
oblasti webového vyhledávání.
Literature - Czech
Last update: T_KSI (29.03.2005)
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.
Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing
Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994.
Syllabus -
Last update: T_KSI (29.03.2005)
Engineering Large-Scale Crawlers.
The Vector-Space Model, Inverted Index, Recall, Precision.
Stopwords, stemming, lemmatization, soundex.
Handling "Find-Similar" Queries, Eliminating Near Duplicates.
Clustering: Bottom-Up/Top-Down; The k-Means Algorithm, Self-Organizing