Hledání téměř identických dokumentů ve velkých kolekcích
Thesis title in Czech: | Hledání téměř identických dokumentů ve velkých kolekcích |
---|---|
Thesis title in English: | Near duplicate detection in large document collections |
Academic year of topic announcement: | 2006/2007 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 06.10.2006 |
Date of assignment: | 09.11.2006 |
Date and time of defence: | 10.09.2007 00:00 |
Date of electronic submission: | 10.09.2007 |
Date of proceeded defence: | 10.09.2007 |
Opponents: | RNDr. Michal Kopecký, Ph.D. |
Guidelines |
Hledání téměř identických dokumentů je úloha, se kterou se dnes můžeme setkat v různých oblastech (databáze, digitální knihovny, elektronické publikování, webové vyhledávání, odhalování plagiátorství apod.). Se vzrůstajícími objemy dat se na její řešení kladou přísné požadavky na co nejmenší časovou a paměťovou náročnost.
Cíl bakalářské práce spočívá v efektivní implementaci a porovnání vybraných algoritmů pro hledání velmi podobných textů v kolekcích čítajících až miliony dokumentů. |
References |
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, The MIT Press, 1999
Kolcz, A., A. Chowdhury, et al. (2003). On the Effects of Data Duplication on Classifier Accuracy. The Twentieth International Conference on Machine Learning (ICML-2003) Workshop on Learning from Imbalanced Data Sets II. |