Klasifikace založená na směsových modelech
Název práce v češtině: | Klasifikace založená na směsových modelech |
---|---|
Název v anglickém jazyce: | Classification based on mixture models |
Klíčová slova: | konečná směs|normální směs|klasifikace|EM algoritmus|věrohodnost |
Klíčová slova anglicky: | finite mixture|normal mixture|classification|EM algorithm|likelihood |
Akademický rok vypsání: | 2021/2022 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra pravděpodobnosti a matematické statistiky (32-KPMS) |
Vedoucí / školitel: | doc. RNDr. Arnošt Komárek, Ph.D. |
Řešitel: | Bc. Lucie Janečková - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 17.10.2021 |
Datum zadání: | 19.10.2021 |
Datum potvrzení stud. oddělením: | 18.11.2021 |
Datum a čas obhajoby: | 07.09.2022 08:15 |
Datum odevzdání elektronické podoby: | 21.07.2022 |
Datum odevzdání tištěné podoby: | 25.05.2022 |
Datum proběhlé obhajoby: | 07.09.2022 |
Oponenti: | doc. RNDr. Matúš Maciak, Ph.D. |
Zásady pro vypracování |
Autor(ka) zavede model konečné směsi s důrazem na model směsi vícerozměrných normálních rozdělení. Dále budou diskutovány způsoby výpočtu maximálně věrohodných odhadů a využití modelu ke klasifikaci ,,bez učitele`` (segmentaci). Součástí práce bude analýza reálných dat nebo simulační studie.
Práce bude psána v češtině nebo slovenštině pomocí systému LaTeX. Úspěšné absolvování předmětu NMSA202: Pravděpodobnost a matematická statistika do okamžiku zápisu bakalářské práce nutné. Zápis této bakalářské práce předpokládá následné absolvování předmětu NMSA349: Bakalářské konzultace: Stochastika. |
Seznam odborné literatury |
[1] Aitkin, M. (2001). Likelihood and Bayesian analysis of mixtures. Statistical Modelling, 1(4), 287-304, doi 10.1177/1471082X0100100404.
[2] Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97(458), 611-631, doi 10.1198/016214502760047131. [3] Fraley, C. and Raftery, A. E. (2003). Enhanced model-based clustering, density estimation, and discriminant analysis software: MCLUST. Journal of Classification, 20, 263-286, doi: 10.1007/s00357-003-0015-3. [4] McLachlan, G. J. and and Basford, K. E. (1988). Mixture Models: Inference and Applications to Clustering. New York: Marcel Dekker, Inc. ISBN 0-8247-7691-7. [5] McLachlan, G. J. and Peel, D. (2000). Finite Mixture Models. New York: John Wiley and Sons. ISBN 0-471-00626-2. |
Předběžná náplň práce |
Uvažme situaci, kdy u každého z n jedinců z jisté populace zjišťujeme hodnoty několika znaků, jež následně reprezentujeme jako pozorované hodnoty n nezávislých stejně rozdělených náhodných vektorů. Model konečné směsi (pro rozdělení těchto náhodných vektorů) se hodí v situaci, kdy lze předpokládat, že se zkoumaná populace skládá z několika skupin s tím, že v každé skupině se sledované znaky chovají jinak (mají jiné rozdělení). Pokud navíc nevíme, který jedinec patří do té či oné skupiny, cílem statistické analýzy může být zjistit, kdo kam patří. Jedním ze způsobů jak to zjistit je potom klasifikace ,,bez učitele`` založená na směsových modelech, tzv. *model-based clustering*. |