Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Text clustering and classification /(Klastrování a klasifikace textů)
Název práce v češtině: Klastrování a klasifi kace textů
Název v anglickém jazyce: Text clustering and classification
Akademický rok vypsání: 2006/2007
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Vedoucí / školitel: Mgr. Marta Vomlelová, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 14.11.2006
Datum zadání: 14.11.2006
Datum a čas obhajoby: 10.09.2007 00:00
Datum odevzdání elektronické podoby:10.09.2007
Datum proběhlé obhajoby: 10.09.2007
Oponenti: RNDr. Jan Hric
 
 
 
Zásady pro vypracování
This thesis deals with machine learning methods for text classification.
The key idea is to preprocess the data using hierarchical
clustering, then to allow an expert to convert this taxonomy to more advanced features (concepts) and to use this concepts for document classification.

The thesis should contain implemetation and theoretical backround of the following:

1) text preprocessing, where vectors of simple features [2] are created from the text

2) hierarchical clustering of feature vectors

3) specification of keywords (key features) for each cluster; these sets
will be modifiable by user, it will be possible to alter the clusters
and to create more general concepts, not necessarily disjoint

4) transformation of simple feature vectors into vectors of concept
membership

5) learning a classifier on the concept membership vectors

6) possibility of using the classifier for new documents.
Seznam odborné literatury
[1] Russel, S., Norvig, P.: Artificial Intelligence: A Modern Approach. Second edn. Prentice Hall, 2003
(relevant chapters).

[2] K. Aas and L. Eikvil. Text categorisation: A survey. Technical report, Norwegian
Computing Center, June 1999.

[3] Y. Zhao, G.Karypis. Hierarchical Clustering Algorithms for Document Datasets. Data
Mining and Knowledge Discovery, Vol. 10, No. 2, pp. 141-168, 2005.

[4] M. Steinbach, G. Karypis, and V. Kumar. A comparison of document clustering
techniques. In KDD Workshop on Text Mining,2000.
Předběžná náplň práce
Cílem práce je na konkrétních datech vyzkoušet metody klastrování a klasifikace dokumentů.

Základní ideou je zkusit předzpracovat data pomocí klastrování, spoluprací strojových metod a expertní znalosti vytvořit určitou taxonomii dokumentů a tuto taxonomii následně použít pro klasifikaci dokumentů.

Práce bude obsahovat teoretické základy a implementaci:
1) předzpracování textů, kdy ze z textu vytvoří vektor příznaků,
2) modul pro hierarchické klastrování vektorů příznaků,
3) pro každý klastr určení klíčových slov (příznaků); tyto množiny bude možno modifikovat uživatelem, tj. zrušit strukturu
klastrů a vytvořit obecnější koncepty, ne nutně disjunktní,
4) převodík vektorů příznaků na vektor příslušnosti ke konceptům,
5) naučení klasifikátoru na vektorech příslušnosti ke konceptům,
6) bude možnost použít klasifikátor na nové dokumenty.
Předběžná náplň práce v anglickém jazyce
This thesis deals with machine learning methods for text classification.
The key idea is to preprocess the data using hierarchical
clustering, then to allow an expert to convert this taxonomy to more advanced features (concepts) and to use this concepts for document classification.
 
Univerzita Karlova | Informační systém UK