Odstraňovač duplicit
Název práce v češtině: | Odstraňovač duplicit |
---|---|
Název v anglickém jazyce: | Removal of Duplicates |
Akademický rok vypsání: | 2007/2008 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Leo Galamboš, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 23.11.2007 |
Datum zadání: | 23.11.2007 |
Zásady pro vypracování |
- prostudujte strukturu projektu egothor2
- porovnejte způsoby řešení odstraňování duplicit - navrhněte řešení, které umožní odstranit duplicity bez off-line režimu indexu - implementujte zvolené řešení - zjistěte náročnost procesu odstraňování duplicit vůči samotnému indexačnímu procesu, navrhněte možnosti vylepšení |
Seznam odborné literatury |
Leo Galambos: Egothor2, http://www.egothor.org/docs/e2.pdf
Jakub Podhorny: Transakce ve fulltextovém vyhledávacím stroji, diplomova prace MFF UK 2007. Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. Amsterdam: Morgan Kaufmann, 2003. Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999. Ian H. Witten, Alistair Moffat, and Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images. Van Nostrand Reinhold, 1994. |
Předběžná náplň práce |
Cílem práce je implementovat odstraňovač duplicitních částí indexu (Barrelu) v rámci projektu egothor2. Součástí je i rozvaha zda je výhodnější odstraňování zapojit v rámci indexačního či vyhledávacího procesu. |
Předběžná náplň práce v anglickém jazyce |
The goal of this work is to implement a strategy of duplicates removal in the egothor search engine. The removal could be applied during the indexing or searching phases, and the work must compare both ways to pick up the best way to be implemented. |