Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Hledání téměř identických dokumentů ve velkých kolekcích

Thesis title in Czech:	Hledání téměř identických dokumentů ve velkých kolekcích
Thesis title in English:	Near duplicate detection in large document collections
Academic year of topic announcement:	2006/2007
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Pavel Pecina, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	06.10.2006
Date of assignment:	09.11.2006
Date and time of defence:	10.09.2007 00:00
Date of electronic submission:	10.09.2007
Date of proceeded defence:	10.09.2007
Opponents:	RNDr. Michal Kopecký, Ph.D.

Guidelines

Hledání téměř identických dokumentů je úloha, se kterou se dnes můžeme setkat v různých oblastech (databáze, digitální knihovny, elektronické publikování, webové vyhledávání, odhalování plagiátorství apod.). Se vzrůstajícími objemy dat se na její řešení kladou přísné požadavky na co nejmenší časovou a paměťovou náročnost.
Cíl bakalářské práce spočívá v efektivní implementaci a porovnání vybraných algoritmů pro hledání velmi podobných textů v kolekcích čítajících až miliony dokumentů.

References

Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, The MIT Press, 1999

Kolcz, A., A. Chowdhury, et al. (2003). On the Effects of Data Duplication on Classifier Accuracy. The Twentieth International Conference on Machine Learning (ICML-2003) Workshop on Learning from Imbalanced Data Sets II.