Shlukování textových dokumentů a jejich částí
Thesis title in Czech: | Shlukování textových dokumentů a jejich částí |
---|---|
Thesis title in English: | Clustering of text documents and their parts |
Key words: | vektorový model, shlukování, zpracování textu, C# |
English key words: | vector-space model, clustering, text processing, C# |
Academic year of topic announcement: | 2009/2010 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | RNDr. Michal Kopecký, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 24.05.2010 |
Date of assignment: | 24.05.2010 |
Confirmed by Study dept. on: | 02.05.2013 |
Date and time of defence: | 30.05.2011 00:00 |
Date of electronic submission: | 11.04.2011 |
Date of submission of printed version: | 11.04.2011 |
Date of proceeded defence: | 30.05.2011 |
Opponents: | prof. RNDr. Tomáš Skopal, Ph.D. |
Guidelines |
Cílem práce je navrhnout a implementovat systém pro shlukování dokumentů a jejich částí - například kapitol, sekcí, či odstavců - a následnou prezentaci (vizualizaci) výsledků uživatelům. Součástí práce je vzájemné porovnání výsledků, dosažených konkrétním algoritmem či algoritmy pro různé úrovně granularity vstupních dat. Systém musí být navržen modulárně s dobře definovanými rozhraními tak, aby jej bylo možné v budoucnosti rozšiřovat o další alternativní algoritmy.
|
References |
[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008
[2] Guojun Gan, Chaoqun Ma, Jianhong Wu: Data Clustering: Theory, Algorithms, and Applications, Cambridge, 2007 [3] Bjornar Larsen, Chinatsu Aone: Fast and effective text mining using linear-time document clustering, Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 16 - 22, San Diego, 1999, ISBN:1-58113-143-7 |