Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Shlukování textových dokumentů a jejich částí
Thesis title in Czech: Shlukování textových dokumentů a jejich částí
Thesis title in English: Clustering of text documents and their parts
Key words: vektorový model, shlukování, zpracování textu, C#
English key words: vector-space model, clustering, text processing, C#
Academic year of topic announcement: 2009/2010
Thesis type: diploma thesis
Thesis language: angličtina
Department: Department of Software Engineering (32-KSI)
Supervisor: RNDr. Michal Kopecký, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 24.05.2010
Date of assignment: 24.05.2010
Confirmed by Study dept. on: 02.05.2013
Date and time of defence: 30.05.2011 00:00
Date of electronic submission:11.04.2011
Date of submission of printed version:11.04.2011
Date of proceeded defence: 30.05.2011
Opponents: prof. RNDr. Tomáš Skopal, Ph.D.
 
 
 
Guidelines
Cílem práce je navrhnout a implementovat systém pro shlukování dokumentů a jejich částí - například kapitol, sekcí, či odstavců - a následnou prezentaci (vizualizaci) výsledků uživatelům. Součástí práce je vzájemné porovnání výsledků, dosažených konkrétním algoritmem či algoritmy pro různé úrovně granularity vstupních dat. Systém musí být navržen modulárně s dobře definovanými rozhraními tak, aby jej bylo možné v budoucnosti rozšiřovat o další alternativní algoritmy.
References
[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008
[2] Guojun Gan, Chaoqun Ma, Jianhong Wu: Data Clustering: Theory, Algorithms, and Applications, Cambridge, 2007
[3] Bjornar Larsen, Chinatsu Aone: Fast and effective text mining using linear-time document clustering, Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 16 - 22, San Diego, 1999, ISBN:1-58113-143-7
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html