Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 392)
Detail práce
   Přihlásit přes CAS
Odstraňovač duplicit
Název práce v češtině: Odstraňovač duplicit
Název v anglickém jazyce: Removal of Duplicates
Akademický rok vypsání: 2007/2008
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Leo Galamboš, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 23.11.2007
Datum zadání: 23.11.2007
Zásady pro vypracování
- prostudujte strukturu projektu egothor2
- porovnejte způsoby řešení odstraňování duplicit
- navrhněte řešení, které umožní odstranit duplicity bez off-line režimu indexu
- implementujte zvolené řešení
- zjistěte náročnost procesu odstraňování duplicit vůči samotnému indexačnímu procesu, navrhněte možnosti vylepšení
Seznam odborné literatury
Leo Galambos: Egothor2, http://www.egothor.org/docs/e2.pdf
Jakub Podhorny: Transakce ve fulltextovém vyhledávacím stroji, diplomova prace MFF UK 2007.
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003.
Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999.
Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994.
Předběžná náplň práce
Cílem práce je implementovat odstraňovač duplicitních částí indexu (Barrelu) v rámci projektu egothor2. Součástí je i rozvaha zda je výhodnější odstraňování zapojit v rámci indexačního či vyhledávacího procesu.
Předběžná náplň práce v anglickém jazyce
The goal of this work is to implement a strategy of duplicates removal in the egothor search engine. The removal could be applied during the indexing or searching phases, and the work must compare both ways to pick up the best way to be implemented.
 
Univerzita Karlova | Informační systém UK