Simplicial depth
Thesis title in Czech: | Simplexová hloubka |
---|---|
Thesis title in English: | Simplicial depth |
Key words: | medián|kvantily|neparametrická analýza|simplexová hloubka|statistická hloubka|vícerozměrná analýza |
English key words: | median|quantiles|nonparametric analysis|simplicial depth|statistical depth|multivariate analysis |
Academic year of topic announcement: | 2022/2023 |
Thesis type: | Bachelor's thesis |
Thesis language: | angličtina |
Department: | Department of Probability and Mathematical Statistics (32-KPMS) |
Supervisor: | doc. Mgr. Stanislav Nagy, Ph.D. |
Author: | Bc. Erik Mendroš - assigned and confirmed by the Study Dept. |
Date of registration: | 25.10.2022 |
Date of assignment: | 25.10.2022 |
Confirmed by Study dept. on: | 29.11.2022 |
Date and time of defence: | 26.06.2023 09:00 |
Date of electronic submission: | 10.05.2023 |
Date of submission of printed version: | 15.05.2023 |
Date of proceeded defence: | 26.06.2023 |
Opponents: | doc. RNDr. Daniel Hlubinka, Ph.D. |
Guidelines |
Riešiteľ(ka) sa zoznámi s pojmom simplexovej hĺbky viacrozmerných dát, prehľadne popíše jej základné vlastnosti, a uvedie príklady simplexovej hĺbky jednoduchých rozdelení. |
References |
Liu, R. Y. (1990). On a notion of data depth based on random simplices. Ann. Statist., 18(1):405–414.
Liu, R. Y., Parelius, J. M., and Singh, K. (1999). Multivariate analysis by data depth: descriptive statistics, graphics and inference. Ann. Statist., 27(3):783–858. Zuo, Y. and Serfling, R. (2000). General notions of statistical depth function. Ann. Statist., 28(2):461–482. |
Preliminary scope of work |
Simplex v priestore R^d je konvexný obal (d+1) bodov (tj. trojuholník v R^2, alebo štvorsten v R^3). Uvažujme sadu n pozorovaní X={x_1, ..., x_n} a bod x v priestore R^d. Simplexová hĺbka bodu x voči dátam X je definovaná ako podiel počtu simplexov s vrcholmi v bodoch z množiny X ktoré obsahujú x, a celkového počtu simplexov tvorených X. Bod z R^d, ktorý dosahuje najvyššiu simplexovú hĺbku je tzv. simplexový medián. Ide o zovšeobecnenie mediánu pre dáta z priestoru R^d. Cieľom práce je popis základných vlastností simplexovej hĺbky a simplexového mediánu.
Musí v R^2 vždy existovať bod, ktorý je pokrytý aspoň 1/3 trojuholníkov s vrcholmi v dátach? Ak poznáme simplexovú hĺbku všetkých bodov, dokážeme zistiť, kde sa nachádzali pôvodné pozorovania X? Ak budú dáta X pochádzať z normálneho rozdelenia, vieme napočítať limitu simplexovej hĺbky bodu x pre rastúci počet pozorovaní n? Ako rýchlo spočítať simplexovú hĺbku bodu, alebo nájsť simplexový medián? |
Preliminary scope of work in English |
A simplex in the space R^d is the convex hull of (d+1) points (that is, a triangle in R^2 or a tetrahedron in R^3). Consider a collection of n observations X={x_1, ..., x_n} and a point x in R^d. The simplicial depth of x with respect to X is defined as the ratio of the number of simplices with vertices in the points from X, and the total number of simplices from X. A point in R^d that attains the highest simplicial depth is the so-called simplicial median. It is a generalization of a median for multivariate data. The goal of this work is the description of basic properties of the simplicial depth and the simplicial median.
Must there exist a point in R^2 that is covered by at least 1/3 of the triangle with vertices in the data points? If we know the simplicial depth of all points, can we determine the location of the observations X? If the data X comes from a multivariate normal distribution, can we express the limit of the simplicial depth of x for a growing sample size n? How to compute the simplicial depth of a point, or a simplicial median efficiently? |