velikost textu

Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Velká data - extrakce klíčových informací pomocí metod matematické statistiky a strojového učení
Název v angličtině:
Big data - extraction of key information combining methods of mathematical statistics and machine learning
Typ:
Rigorózní práce
Autor:
Bc. Tomáš Masák
Vedoucí:
prof. RNDr. Jaromír Antoch, CSc.
Id práce:
212626
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra pravděpodobnosti a matematické statistiky (32-KPMS)
Program studia:
Matematika (N1101)
Obor studia:
Pravděpodobnost, matematická statistika a ekonometrie (MPMSE)
Přidělovaný titul:
RNDr.
Datum obhajoby:
4. 2. 2020
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Čeština
Klíčová slova:
penalizace nejmenších čtverců, iterativně vážené nejmenší čtverce, analýza hlavních komponent, řídkost, algoritmy pro AŘHK
Klíčová slova v angličtině:
penalized least squares, iteratively reweighted least squares, principal component analysis, sparsity, algorithms for SPCA
Abstrakt:
Abstrakt: Tato práce se zabývá metodami zpracování dat, zejména analýzou hlav- ních komponent a její øídkou modikací (AØHK), která je NP-tì¾kou úlohou. Úlohu AØHK lze pøepsat do regresního kontextu, ve kterém je øídkost typicky vynucována pomocí ℓ1-penalizace regresních koecientù. V této práci navrhujeme pou¾ít iterativní pøeva¾ování ℓ2-penalizace namísto zmínìného ℓ1-pøístupu. Vý- sledný algoritmus porovnáváme s nìkolika známými algoritmy pro AØHK pomocí simulaèní studie a také zajímavého praktického pøíkladu, ve kterém analyzujeme data o hlasování poslancù v Parlamentu Èeské republiky. Experimentálnì uka- zujeme, ¾e námi navr¾ený algoritmus produkuje lep¹í výsledky ne¾ ostatní uva- ¾ované algoritmy. Pro navr¾ený algoritmus uvádíme té¾ dùkaz konvergence spolu s dùkazem konvergence pùvodního regresního pøístupu k AØHK. v
Abstract v angličtině:
Abstract: This thesis is concerned with data analysis, especially with principal component analysis and its sparse modication (SPCA), which is NP-hard-to- solve. SPCA problem can be recast into the regression framework in which spar- sity is usually induced with ℓ1-penalty. In the thesis, we propose to use iteratively reweighted ℓ2-penalty instead of the aforementioned ℓ1-approach. We compare the resulting algorithm with several well-known approaches to SPCA using both simulation study and interesting practical example in which we analyze voting re- cords of the Parliament of the Czech Republic. We show experimentally that the proposed algorithm outperforms the other considered algorithms. We also prove convergence of both the proposed algorithm and the original regression-based approach to PCA. vi
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Tomáš Masák 11.38 MB
Stáhnout Abstrakt v českém jazyce Bc. Tomáš Masák 78 kB
Stáhnout Abstrakt anglicky Bc. Tomáš Masák 78 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Petr Lachout, CSc. 41 kB