Text clustering and classification /(Klastrování a klasifikace textů)
Název práce v češtině: | Klastrování a klasifikace textů |
---|---|
Název v anglickém jazyce: | Text clustering and classification |
Akademický rok vypsání: | 2006/2007 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Katedra teoretické informatiky a matematické logiky (32-KTIML) |
Vedoucí / školitel: | Mgr. Marta Vomlelová, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 14.11.2006 |
Datum zadání: | 14.11.2006 |
Datum a čas obhajoby: | 10.09.2007 00:00 |
Datum odevzdání elektronické podoby: | 10.09.2007 |
Datum proběhlé obhajoby: | 10.09.2007 |
Oponenti: | RNDr. Jan Hric |
Zásady pro vypracování |
This thesis deals with machine learning methods for text classification.
The key idea is to preprocess the data using hierarchical clustering, then to allow an expert to convert this taxonomy to more advanced features (concepts) and to use this concepts for document classification. The thesis should contain implemetation and theoretical backround of the following: 1) text preprocessing, where vectors of simple features [2] are created from the text 2) hierarchical clustering of feature vectors 3) specification of keywords (key features) for each cluster; these sets will be modifiable by user, it will be possible to alter the clusters and to create more general concepts, not necessarily disjoint 4) transformation of simple feature vectors into vectors of concept membership 5) learning a classifier on the concept membership vectors 6) possibility of using the classifier for new documents. |
Seznam odborné literatury |
[1] Russel, S., Norvig, P.: Artificial Intelligence: A Modern Approach. Second edn. Prentice Hall, 2003
(relevant chapters). [2] K. Aas and L. Eikvil. Text categorisation: A survey. Technical report, Norwegian Computing Center, June 1999. [3] Y. Zhao, G.Karypis. Hierarchical Clustering Algorithms for Document Datasets. Data Mining and Knowledge Discovery, Vol. 10, No. 2, pp. 141-168, 2005. [4] M. Steinbach, G. Karypis, and V. Kumar. A comparison of document clustering techniques. In KDD Workshop on Text Mining,2000. |
Předběžná náplň práce |
Cílem práce je na konkrétních datech vyzkoušet metody klastrování a klasifikace dokumentů.
Základní ideou je zkusit předzpracovat data pomocí klastrování, spoluprací strojových metod a expertní znalosti vytvořit určitou taxonomii dokumentů a tuto taxonomii následně použít pro klasifikaci dokumentů. Práce bude obsahovat teoretické základy a implementaci: 1) předzpracování textů, kdy ze z textu vytvoří vektor příznaků, 2) modul pro hierarchické klastrování vektorů příznaků, 3) pro každý klastr určení klíčových slov (příznaků); tyto množiny bude možno modifikovat uživatelem, tj. zrušit strukturu klastrů a vytvořit obecnější koncepty, ne nutně disjunktní, 4) převodík vektorů příznaků na vektor příslušnosti ke konceptům, 5) naučení klasifikátoru na vektorech příslušnosti ke konceptům, 6) bude možnost použít klasifikátor na nové dokumenty. |
Předběžná náplň práce v anglickém jazyce |
This thesis deals with machine learning methods for text classification.
The key idea is to preprocess the data using hierarchical clustering, then to allow an expert to convert this taxonomy to more advanced features (concepts) and to use this concepts for document classification. |