PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Dokumentografické informační systémy - NDBI010
Anglický název: Information Retrieval Systems
Zajišťuje: Katedra softwarového inženýrství (32-KSI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:2/0, Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: zrušen
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Další informace: http://www.ms.mff.cuni.cz/~kopecky/vyuka/dis/
Garant: RNDr. Michal Kopecký, Ph.D.
Třída: Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Databázové systémy
Neslučitelnost : NDBI043
Záměnnost : NDBI043
Je neslučitelnost pro: NDBI043
Je prerekvizitou pro: NSWI107
Je záměnnost pro: NDBI043
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: ()
Vyhledávání a výběr dat z textových databází. Architektura dokumentografických informačních systémů. Komprese textu. Oprava textů v přirozeném jazyce.
Literatura
Poslední úprava: Ing. Ladislav Kopecký (10.04.2005)

Pokorný J., Snášel V., Húsek D.: Dokumentograficé informační systémy. Skripta UK, 1999

Melichar B.: Textové informační systémy. Skripta ČVUT, 1994

Sylabus -
Poslední úprava: Ing. Ladislav Kopecký (03.05.2005)

Úvod do problematiky informačních systémů

  • Historie a vývoj vyhledávání v textech
  • Rozdíly mezi faktografickými a dokumentografickými IS

Algoritmy pro přesné vyhledávání v textech

  • Triviální algoritmus vyhledávání hrubou silou
  • Algoritmy pro dopředné (sousměrné) vyhledávání
  • Knuth-Morris-Prattův algoritmus
  • Aho-Corasickové algoritmus
  • Vyhledávání regulárních výrazů konečnými automaty
  • Algoritmy pro nesousměrné vyhledávání
  • Algoritmus Boyer-Moorův
  • Algoritmus Commentz-Walter
  • Butzilowského dvojcestný konečný automat se skokem

Dokumentografické informační systémy

  • Boolské DIS
  • Vektorové DIS
  • Signaturové metody
  • Induktivní DIS, spreading
  • Systémy využívající fuzzy logiku

Indexace dokumentů

  • Automatická indexace dokumentů
  • Výběr indexačních termů
  • Stanovení důležitosti termu
  • Implementace indexových systémů
  • Shlukovací algoritmy pro vektorový model
  • Tvorba konceptů pro vektorový model

Algoritmy pro přibližné vyhledávání v textech

  • Hammingova a Levenshteinova metrika
  • Konstrukce vyhledávacího stroje pro přibližné vyhledávání
  • Oprava textu

Komprese dat v DIS

  • Entropie a redundance
  • Komprese přirozených čísel
  • Statické versus adaptivní algoritmy
  • Huffmanovo kódování, komprese po slovech

 
Univerzita Karlova | Informační systém UK