Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Metody shlukování pro analýzu kolekcí textových dokumentů
Název práce v češtině: Metody shlukování pro analýzu kolekcí textových dokumentů
Název v anglickém jazyce: Clustering methods for analysis of collections of text documents
Akademický rok vypsání: 2007/2008
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Pavel Schlesinger
Řešitel:
Zásady pro vypracování
Některá textová data mohou být v komputační lingvistice chápána jako kolekce skládájící se z jednotlivých dokumentů. Zajímavým problémem při zkoumání velké kolekce je nalezení stejných nebo podobných dokumentů případně jejich částí. Další úlohou, s tímto problémem spojenou, je detekce dokumentů, které vycházejí z podobného zdroje, tzv. "co-derived", jako např. zprávy jednotlivých českých novinových serverů z ČTK. Tato diplomová práce se zabývá studiem jednoho, příp. obou zmíněných problémů na reálných datech.

Cílem této diplomové práce je:
- Seznámit se s vhodnými metodami, měrami a algoritmy pro sledování podobnosti dokumentů a následně je popstat.
- Vybrané metody aplikovat na reálná data (např. na výběr z ČNK SYN2006 nebo na kolekci noviných článků stažených z internetu).
- K výše uvedenému se navíc dodatečně seznámit se současnými přístupy pro přehledné zobrazování podobnosti dokumentů v celé kolekci. Na tomto základě případně navrhout a naimplementovat vhodný vizualizační nástroj pro dodaná data.
- Všechny body lze chápat jako úkol studovaný a zpracovávaný na celé dodané kolekci nebo na její vybrané podčásti.

Seznam odborné literatury
Mirkin, B.: Clustering for Data Mining: A Data Recovery Approach. Chapman & Hall/CRC 2005.
Cutting, D.R., Karger, D.R., Pedersen, J.O., Tukey, J.W.: Scatter/Gather: a cluster-based approach to browsing large document collections. Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 318 - 329, SIGIR/ACM Press 1992.
Bernstein Y., Zobel J.: Accurate discovery of co-derivative documents via duplicate text detection. Information Systems, Vol. 31, Issue 7, pp. 595-609, Elsevier 2006.
 
Univerzita Karlova | Informační systém UK