PředmětyPředměty(verze: 867)
Předmět, akademický rok 2019/2020
  
Internet a klasifikační metody - NAIL105
Anglický název: Internet and Classification Methods
Zajišťuje: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019 do 2019
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:1/1 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Garant: doc. RNDr. Ing. Martin Holeňa, CSc.
Třída: Informatika Mgr. - volitelný
Kategorizace předmětu: Informatika > Informatika, Aplikační software, Počítačová grafika a geometrie, Databázové systémy, Didaktika informatiky, Diskrétní matematika, Předměty širšího základu, Předměty obecného základu, Počítačová a formální lingvistika, Optimalizace, Programování, Softwarové inženýrství, Teoretická informatika
Anotace -
Poslední úprava: T_KTI (29.03.2013)
V rámci předmětu se student seznámí s klasifikačními metodami používanými ve třech důležitých internetových nebo obecně síťových aplikacích: při filtraci spamu, v doporučovacích systémech a v systémech pro odhalení hrozeb v síti. Dozví se však více než jenom to, jak se při řešení těchto tří problémů klasifikace provádí. Na pozadí uvedených aplikací získá celkový přehled o základech klasifikačních metod. Předmět je vyučován v dvoutýdenním cyklu v rozsahu 2 hodiny přednášek a 2 hodiny cvičení. Na cvičeních studenti jednak implementují jednoduché příklady k tématům z přednášky.
Cíl předmětu -
Poslední úprava: doc. RNDr. Ing. Martin Holeňa, CSc. (07.06.2019)

Seznámit studenty se spektrem klasifikačních metod používaných nebo použitelných v internetových aplikacích.

Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Ing. Martin Holeňa, CSc. (13.10.2017)

Zápočet za účast na cvičeních a vypracování semestrální práce + následná zkouška. Získaný zápočet je podmínkou účasti na zkoušce.

Literatura -
Poslední úprava: T_KTI (09.05.2014)

E. Blanzieri, A. Bryl. A survey of learning-based techniques of email spam filtering. Artificial Intelligence Reiviews, 29 (2006) 63-92.

D.J. Hand. Construction and Assessment of Classification Rules. Wiley, 1997.

L.I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms. Wiley, 2004.

A. Shabtai, R. Moskowitch, Y. Elovici, C. Glezer. Detection of malicious code by applying machine learning classifiers on static features: A state-of-the-art survey. Information Security, 14 (2009) 16-29.

Požadavky ke zkoušce
Poslední úprava: doc. RNDr. Ing. Martin Holeňa, CSc. (13.10.2017)

Ústní zkouška, při které si student losuje jedno z témat probíraných při 2.-6. přednášce.

Sylabus -
Poslední úprava: doc. RNDr. Ing. Martin Holeňa, CSc. (21.01.2020)

Téma 1. Tři důležité internetové aplikace klasifikačních metod. 1. Filtrace spamu. Klasifikační úlohy vyskytující se při filtraci spamu. Klasifikace spamu na základě obsahu zpráv a na základě metainformací o zprávách. Začlenění klasifikace do celkového procesu filtrace spamu. Příklady existujících spamových filtrů. 2. Doporučovací systémy (recommender systems). Klasifikační úlohy vyskytující se v doporučovacích systémech. Klasifikace při obsahovém filtrování a při kolaborativním filtrování. Příklady existujících doporučovacích systémů založených na obsahovém filtrování a systémů založených na kolaborativním filtrování. 3. Systémy pro odhalení hrozeb v síti (intrusion detection systems). Klasifikační úlohy vyskytující se v systémech pro odhalení hrozeb. Klasifikace anomálního chování sítě jako důležitá komponenta systému pro odhalení hrozeb. Klasifikace přítomnosti a nepřítomnosti anomálního chování. Klasifikace do jednotlivých druhů anomálního chování. Příklady existujících systémů pro odhalení hrozeb v síti. O čem budou zbývající přednášky?

Téma 2. Základní koncepty týkající se klasifikace. Klasifikace a klasifikátory. Binární klasifikace a klasifikace do více tříd. Použití klasifikace do 3 tříd ve spamových filtrech. Koncepty specifické pro binární klasifikaci: pozitivní a negativní třída, falešná pozitivita a falešná negativita. Charakterizace kvality klasifikace pomocí její chybovosti. Zahrnutí různé ceny chyb pro různé třídy. Různá cena falešné pozitivity a falešné negativity při filtraci spamu. Specifické charakteristiky kvality binární klasifikace: správnost, přesnost, citlivost, specificita, F-míra, ROC křivka a plocha pod ní. Charakterizace kvality klasifikace při filtraci spamu. Tvar hranice mezi třídami. Lineární separabilita tříd. Metoda přechodu od lineárně neseparabilních tříd ke třídám lineárně separabilním pomocí jádrových funkcí. Konstrukce klasifikátorů z existujících dat - učení klasifikátorů. Učení spamových filtrů. Přeučení klasifikátoru. Souvislost klasifikace a regrese, klasifikátorů a regresních funkcí. Role regrese v doporučovacích systémech. Odlišnost klasifikace a shlukování. Použití shlukování v doporučovacích systémech.

Téma 3. Hlavní typy klasifikačních metod. Rozdělení klasifikačních metod podle toho, zda hledají hranice mezi třídami. Hlavní přístupy používané v metodách nehledajících hranice: podobnost a odhadování pravděpodobnosti příslušnosti k jednotlivým třídám. Klasifikátory založené na podobnosti nejbližším sousedům se známou příslušností do tříd - k-NN klasifikátory. Použití k-NN klasifikátorů při kolaborativním filtrování. Použití k-NN klasifikátorů při detekci malware. Volba počtu nejbližších sousedů v k- NN klasifikátorech. Míry podobnosti užívané v k-NN klasifikátorech. Měření podobnosti při kolaborativním filtrování. Klasifikátory založené na bodových odhadech pravděpodobnosti příslušnosti k třídám - bayesovské klasifikátory. Bodové odhady pravděpodobnosti příslušnosti k třídám logitovou metodou. Použití bayesovských klasifikátorů ve spamových filtrech. Učení bayesovských spamových filtrů. Narušitelnost učení bayesovských filtrů spamery (bayesian poisoning). Klasifikace založená na odhadech pravděpodobnosti příslušnosti k třídám prokládáním vícerozměrného normálního rozdělení - Fisherova diskriminační analýza. Lineární a kvadratická diskriminační analýza. Diskriminační analýza při klasifikaci obrázků a videí. Klasifikátory hledající hranice mezi třídami pomocí umělých neuronových sítí. Hledání lineární hranice pomocí perceptronů a nelineární hranice pomocí vícevrstvých perceptronů. Použití umělých neuronových sítí pro filtraci spamu. Použití umělých neuronových sítí v doporučovacích systémech. Použití umělých neuronových sítí při odhalování různých druhů hrozeb v síti.

Téma 4. Kdy dělá klasifikátor nejméně chyb na nových vstupech? Přesnost klasifikátoru na nových vstupech - generalizační schopnost klasifikátoru. Předpoklad o zvýšení generalizační schopnosti binárního klasifikátoru při klasifikaci lineárně separabilních tříd se zvětšením šířky pásu mezi třídami. Hledání klasifikátoru s nejširším pásem mezi třídami jako optimalizační úloha. Role vektorů z opěrných nadrovin tříd. Klasifikátory pro lineárně separabilní třídy konstruované pomocí opěrných vektorů - SVM klasifikátory (support vector machines). Použití SVM klasifikátorů pro lineárně neseparabilní třídy. Proč je pro SVM klasifikátory výhodné používat přechod od lineárně neseparabilních tříd ke třídám lineárně separabilním pomocí jádrových funkcí? Používání SVM klasifikátorů při klasifikaci do více tříd. Rozšíření SVM klasifikátorů o toleranci vůči šumu. Použití SVM klasifikátorů pro filtraci spamu. Použití SVM klasifikátorů v doporučovacích systémech. Použití SVM klasifikátorů při detekci malware. Aktivní učení a jeho relevance pro SVM klasifikátory. Využití aktivního učení v doporučovacích systémech.

Téma 5. Kdy je klasifikace srozumitelná uživateli? Snaha o srozumitelné vyjádření klasifikace pomocí jazyka formální logiky. Klasifikační pravidla: implikace a ekvivalence booleovské a fuzzy logiky. Získávání klasifikačních pravidel z dat pomocí genetických a dalších evolučních algoritmů. Michiganský a pittsburgský přístup k evolučnímu hledání souborů klasifikačních pravidel. Použití klasifikačních pravidel pro filtraci spamu. Použití klasifikačních pravidel v doporučovacích systémech. Použití klasifikačních pravidel při detekci malware. Získávání pravidel z dat pomocí observačního kalkulu. Konstrukce observačních pravidel pomocí odhadů pravděpodobností. Konstrukce observačních pravidel pomocí testování hypotéz. Klasifikační stromy a získávání klasifikačních pravidel z nich. Učení klasifikačních stromů. Prořezávání klasifikačních stromů. Použití klasifikačních stromů v doporučovacích systémech. Další internetové aplikace klasifikačních stromů.

Téma 6. Tým zvládne více než jedinec. Spojování více klasifikátorů do týmu. Zahrnutí různé důvěry různým klasifikátorům v týmu. Týmy klasifikátorů různých druhů a soubory (ensembles) klasifikátorů stejného druhu. Použití týmu různých klasifikátorů při klasifikaci multimediálních dat. Metody vytváření týmů klasifikátorů. Bagging, boosting, hierarchické týmy. Použití souborů klasifikátorů při detekci malware. Soubory klasifikačních stromů - klasifikační náhodné lesy. Typy náhodných lesů. Aktivní učení náhodných lesů. Použití náhodných lesů pro filtraci spamu. Použití náhodných lesů v doporučovacích systémech.

Náplň cvičení:

1. Seznámení s vývojovým prostředím Matlab pro ty, kdo ho dosud nepoužívali.

2. Představení možných semestrálních prací, které budou studenti na zápočet doma vypracovávat + jednoduché příklady k tématu 2.

3.-6. Jednoduché příklady k tématům 3.-6. + konzultace k semestrálním pracím.

 
Univerzita Karlova | Informační systém UK