Výpočet a aplikace MCD estimátoru pro robustní statistické analýzy
Thesis title in Czech: | Výpočet a aplikace MCD estimátoru pro robustní statistické analýzy |
---|---|
Thesis title in English: | Computation and applications of the MCD estimator for robust statistical analysis |
Key words: | robustni statistika, minimum covariance determinant, fastMCD, C-step |
English key words: | robust statistics, minimum covariance determinant, fastMCD, C-step |
Academic year of topic announcement: | 2015/2016 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Department of Numerical Mathematics (32-KNM) |
Supervisor: | doc. Dipl.-Math. Erik Jurjen Duintjer Tebbens, Ph.D. |
Author: | hidden![]() |
Date of registration: | 18.10.2015 |
Date of assignment: | 20.10.2015 |
Confirmed by Study dept. on: | 07.12.2015 |
Date and time of defence: | 05.09.2016 00:00 |
Date of electronic submission: | 28.07.2016 |
Date of submission of printed version: | 28.07.2016 |
Date of proceeded defence: | 05.09.2016 |
Opponents: | doc. RNDr. Iveta Hnětynková, Ph.D. |
Advisors: | RNDr. Jan Kalina, Ph.D. |
Guidelines |
Čtení matematické a statistické literatury v angličtině, programování v Matlabu. |
References |
- L. Eldén: Matrix Methods in Data Mining and Pattern Recognition, Fundamentals of Algorithms 4, SIAM , 2007.
- M. Hubert and M. Debruyne: Minimum covariance determinant, WIREs Comp Stat, vol. 2, pp. 36–43, 2010. - P. Rousseeuw and K. Van Driessen: A fast algorithm for the minimum covariance determinant estimator. Technometrics vol. 41, pp. 212–223, 1999. - E. Roelant, S. Van Aelst and G. Willems: The minimum weighted covariance determinant estimator, Metrika, vol. 70, pp. 177–204, 2009. - J. Kalina, J. Duintjer Tebbens and A. Schlenker: Robustness of high-dimensional data mining, Proceedings of ITAT 2014, Part II, V. Kurkova et al. (Eds.), Insitute of Computer Science AS CR, Prague, pp. 53-60, 2014. |
Preliminary scope of work |
Očekávaná hodnota a směrodatná odchylka jsou základními veličinami mnoho typu statistických analýz. V případě, ze daná data obsahují outliers (odlehlivé hodnoty) je těžko tyto outliers odhalit a spočíst spolehlivé (róbustní) odhady očekávané hodnoty a směrodatné odchylky. Populární metodou pro určení spolehlivých odhadů je použití estimatoru MCD (minimum covariance determinant); jeho výpočet je však poměrně drahý. Cílem této práce je popis tohoto estimatoru především z pohledu numeriky (tj. výpočetních nákladů, stability atd.) a popis jeho silných a slabých stránek v typických aplikacích, kde róbustní odhady jsou zásadní (např. lékárenství, analýza obrazu, chemie). |