Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Metody shlukování pro analýzu kolekcí textových dokumentů

Název práce v češtině:	Metody shlukování pro analýzu kolekcí textových dokumentů
Název v anglickém jazyce:	Clustering methods for analysis of collections of text documents
Akademický rok vypsání:	2007/2008
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Pavel Schlesinger
Řešitel:

Zásady pro vypracování

Některá textová data mohou být v komputační lingvistice chápána jako kolekce skládájící se z jednotlivých dokumentů. Zajímavým problémem při zkoumání velké kolekce je nalezení stejných nebo podobných dokumentů případně jejich částí. Další úlohou, s tímto problémem spojenou, je detekce dokumentů, které vycházejí z podobného zdroje, tzv. "co-derived", jako např. zprávy jednotlivých českých novinových serverů z ČTK. Tato diplomová práce se zabývá studiem jednoho, příp. obou zmíněných problémů na reálných datech.

Cílem této diplomové práce je:
- Seznámit se s vhodnými metodami, měrami a algoritmy pro sledování podobnosti dokumentů a následně je popstat.
- Vybrané metody aplikovat na reálná data (např. na výběr z ČNK SYN2006 nebo na kolekci noviných článků stažených z internetu).
- K výše uvedenému se navíc dodatečně seznámit se současnými přístupy pro přehledné zobrazování podobnosti dokumentů v celé kolekci. Na tomto základě případně navrhout a naimplementovat vhodný vizualizační nástroj pro dodaná data.
- Všechny body lze chápat jako úkol studovaný a zpracovávaný na celé dodané kolekci nebo na její vybrané podčásti.

Seznam odborné literatury

Mirkin, B.: Clustering for Data Mining: A Data Recovery Approach. Chapman & Hall/CRC 2005.
Cutting, D.R., Karger, D.R., Pedersen, J.O., Tukey, J.W.: Scatter/Gather: a cluster-based approach to browsing large document collections. Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 318 - 329, SIGIR/ACM Press 1992.
Bernstein Y., Zobel J.: Accurate discovery of co-derivative documents via duplicate text detection. Information Systems, Vol. 31, Issue 7, pp. 595-609, Elsevier 2006.