Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Hledání téměř identických dokumentů ve velkých kolekcích

Název práce v češtině:	Hledání téměř identických dokumentů ve velkých kolekcích
Název v anglickém jazyce:	Near duplicate detection in large document collections
Akademický rok vypsání:	2006/2007
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	06.10.2006
Datum zadání:	09.11.2006
Datum a čas obhajoby:	10.09.2007 00:00
Datum odevzdání elektronické podoby:	10.09.2007
Datum proběhlé obhajoby:	10.09.2007
Oponenti:	RNDr. Michal Kopecký, Ph.D.

Zásady pro vypracování

Hledání téměř identických dokumentů je úloha, se kterou se dnes můžeme setkat v různých oblastech (databáze, digitální knihovny, elektronické publikování, webové vyhledávání, odhalování plagiátorství apod.). Se vzrůstajícími objemy dat se na její řešení kladou přísné požadavky na co nejmenší časovou a paměťovou náročnost.
Cíl bakalářské práce spočívá v efektivní implementaci a porovnání vybraných algoritmů pro hledání velmi podobných textů v kolekcích čítajících až miliony dokumentů.

Seznam odborné literatury

Christopher D. Manning, Hinrich Schutze: Foundations of Statistical Natural Language Processing, The MIT Press, 1999

Kolcz, A., A. Chowdhury, et al. (2003). On the Effects of Data Duplication on Classifier Accuracy. The Twentieth International Conference on Machine Learning (ICML-2003) Workshop on Learning from Imbalanced Data Sets II.