Hledání téměř identických dokumentů ve velkých kolekcích
Název práce v češtině: | Hledání téměř identických dokumentů ve velkých kolekcích |
---|---|
Název v anglickém jazyce: | Near duplicate detection in large document collections |
Akademický rok vypsání: | 2006/2007 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 06.10.2006 |
Datum zadání: | 09.11.2006 |
Datum a čas obhajoby: | 10.09.2007 00:00 |
Datum odevzdání elektronické podoby: | 10.09.2007 |
Datum proběhlé obhajoby: | 10.09.2007 |
Oponenti: | RNDr. Michal Kopecký, Ph.D. |
Zásady pro vypracování |
Hledání téměř identických dokumentů je úloha, se kterou se dnes můžeme setkat v různých oblastech (databáze, digitální knihovny, elektronické publikování, webové vyhledávání, odhalování plagiátorství apod.). Se vzrůstajícími objemy dat se na její řešení kladou přísné požadavky na co nejmenší časovou a paměťovou náročnost.
Cíl bakalářské práce spočívá v efektivní implementaci a porovnání vybraných algoritmů pro hledání velmi podobných textů v kolekcích čítajících až miliony dokumentů. |
Seznam odborné literatury |
Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, The MIT Press, 1999
Kolcz, A., A. Chowdhury, et al. (2003). On the Effects of Data Duplication on Classifier Accuracy. The Twentieth International Conference on Machine Learning (ICML-2003) Workshop on Learning from Imbalanced Data Sets II. |