Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Vyhledávání v českých strukturovaných datech pomocí stemmingu
Název práce v češtině: Vyhledávání v českých strukturovaných datech pomocí stemmingu
Název v anglickém jazyce: Searching Czech Structured Data using Stemming
Akademický rok vypsání: 2009/2010
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Jaroslava Hlaváčová, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 13.11.2009
Datum zadání: 13.11.2009
Datum a čas obhajoby: 06.09.2010 00:00
Datum odevzdání elektronické podoby:06.09.2010
Datum proběhlé obhajoby: 06.09.2010
Oponenti: doc. RNDr. Vladislav Kuboň, Ph.D.
 
 
 
Zásady pro vypracování
Tématem diplomové práce je vytvoření nástroje, který umožní rychlé vyhledávání ve strukturovaných dokumentech s podporou fulltextového vyhledávání v českém textu s diakritikou i bez ní. Pro nalezení relevantních výsledků se bude využívat doplňování české diakritiky a stemming.
Nástroj musí být schopen efektivně vyhledávát v řádově milionech dokumentů, průměrná délka jednoho dokumentu je řádově stovky znaků.

Definujte rozhraní pro inkrementální modifikaci množiny prohledávaných dokumentů vkládáním, modifikací a odstraňováním prohledávaných dokumentů. Pro jednotlivé typy dotazů diskutujte složitost výpočtu a možnost použití pomocných optimalizačních struktur.
Umožněte definovat vlastní funkci relevance dokumentu vzhledem k dotazu.
Seznam odborné literatury
Majumder P., Mitra M., Pal D.: Bulgarian, Hungarian and Czech Stemming Using YASS. In: LNCS Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers

Dolamic L., Savoy J.: Stemming Approaches for East European Languages. In: LNCS Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers

Gospodnetic O., Hatcher E.: Lucene in Action, Manning Publications, 2004

Krátký P.: Vyhledávání v českých dokumentech nad nativním XML úložištěm, diplomová práce na FI MU v Brně, 2007
 
Univerzita Karlova | Informační systém UK