velikost textu

Statistical Depth for Functional Data

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Statistical Depth for Functional Data
Název v češtině:
Statistická hloubka funkcionálních dat
Typ:
Disertační práce
Autor:
Mgr. Stanislav Nagy
Školitel:
doc. RNDr. Daniel Hlubinka, Ph.D.
Oponenti:
prof. Gerda Claeskens
prof. RNDr. Marie Hušková, DrSc.
Id práce:
110328
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra pravděpodobnosti a matematické statistiky (32-KPMS)
Program studia:
Matematika (P1101)
Obor studia:
Pravděpodobnost a matematická statistika (4M4)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
19. 12. 2016
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
konzistence, hloubka dat, funkcionální data, integrovaná hloubka, měřitelnost, stejnoměrná konzistence
Klíčová slova v angličtině:
consistency, data depth, functional data, integrated depth, measurability, uniform consistency
Abstrakt:
Štatistická hĺbka je neparametrický nástroj analýzy mnohorozmerných dát, ktorého cieĺom je zovšeobecnenie kvantilov pre komplexné dáta akými sú náhodné vektory, náhod- né funkcie, alebo rozdelenia na varietách a grafoch. Hlavnou myšlienkou hĺbky je, pre ĺubovoĺný mnohorozmerný priestor M, priradiť bodu x ∈ M a pravdepodobnostnému rozdeleniu P na M číslo D(x; P ) ∈ [0, 1] ktoré charakterizuje ako “centrálne umiestnený” je bod x vzhĺadom k P . Bod maximalizujúci D(·; P ) je potom zovšeobecnením mediánu pre dáta v priestore M, a množina bodov ktorých hĺbka je vyššia ako určitá hodnota predstavuje vnútorný hĺbkový kvantil rozdelenia P . V tejto práci sa zameriavame na hĺbku dát navrhnutú pre nekonečnorozmerné priestory M a funkcionálne dáta. Na úvod uvádzame prehĺad hĺbkových funkcionálov, ktoré sa dajú nájsť v literatúre. Hlavný dôraz je kladený na zjednotenie týchto rôznorodých konceptov z teoretického hĺadiska. Ukazujeme, že våčšina zavedených hĺbok spadá do všeobecného rámca hĺbok založených na projekciách a to bud’ integrálneho, alebo infimálneho typu. Výchádzajúc z navrhovanej metodiky, teoretické vlastnosti všetkých uvažovaných hĺbok je možné vyšetrovať súčasne. Prvú časť práce venujeme skúmaniu týchto teoretických vlastností, najmå konzistencie a merateĺnosti, a podmienok za ktorých môžu byť zaručené. Ukazujeme, že niektoré z najznámejších funkcionálnych hĺbok nesplňujú tieto dôležité podmienky, a preto nemôžu byť považované za vhodné v štatistickej analýze. Naším hlavným príspevkom je odvodenie takých modifikácií týchto hĺbok, pre ktoré je možné nájsť podmienky postačujúce na zaručenie ich konzistencie. Pre rodinu integrálnych hĺbok funkcionálnych dát predstavujeme ucelenú štúdiu ich najdôležitejších vlastností, vrátane diskusie o charakteristikách ktoré by všeobecná hĺbka v nekonečnorozmernom priestore mala splňovať. Ukazujeme, že integrálne hĺbky zdieĺajú množstvo vlastností s konečnorozmernou hĺbkou predstavujúcou ich základný prvok. Riešime niektoré otvorené problémy týkajúce sa merateĺnosti integrálnych hĺbkových fun- kcionálov, predstavujeme veĺmi široký nový koncept symetrie pre functionálne dáta, a odhaĺujeme niektoré problémy týkajúce sa konzistencie. Odvodíme všeobecné výsledky týkajúce sa univerzálnej konzistencie výberových verzií integrálnych hĺbok a príslušných mediánov. V druhej časti práce sa zameriavame na rozšírenia a aplikácie predstavenej teórie. Najprv sa zaoberáme praktickým problémom spojeným s ideou funkcionálnych hĺbok. Náhodné funkcie zvyčajne nie je možné pozorovať spojite v každom bode ich definičného oboru. Namiesto toho, funkčné hodnoty sú často známe iba v konečnom počte týchto bo- dov. Vychádzajúc z týchto predpokladov vypracujeme teoretické základy pre používanie hĺbky dát v kontexte diskrétne pozorovaných funkcií. Dokážeme všeobecný výsledok o slabej konvergencii empirickej miery diskrétne pozorovaných funkcionálnych dát, ktorý aplikujeme na problém konzistencie rozličných typov hĺbky funkcií. Na protipríkladoch ukážeme, že predpoklady tohto tvrdenia nie je možné jednoducho oslabiť, a naznačíme niekoĺko d’alších aplikácií dokázaného tvrdenia mimo oblasti hĺbky dát. V nasledujúcej časti formálne uvádzame používanie integrálnych hĺbok aj pre fun- kcionálne dáta, ktorých trajektórie nie sú nutne spojité. Vyriešime problémy spojené s merateĺnosťou vyvstávajúce pri definícii týchto hĺbok. Ako dôsledok získame rovnomernú silnú konzistenciu výberovej verzie integrálnej hĺbky v prípade, že náhodné funkcie sú bo- relovsky merateĺné. V záverečnej časti práce sa zameriavame na významný nedostatok mnohých zavedených hĺbkových funkcionálov — ich neefektivitu pri odhaĺovaní funkcií odĺahlých výlučne v 1 2 tvare. V kontexte všeobecných hĺbok integrálneho a infimálneho typu navrhujeme jedno- duchú úpravu funkcionálnych hĺbok poskytujúcu nápravu týchto problémov. Navrhnutá úprava je široko aplikovateĺná a zavedená bez nutnosti uloženia akýchkoĺvek predpokladov (napríklad diferencovateĺnosti) na pozorované dáta. Dokážeme, že množstvo hodnotných vlastností pôvodných hĺbok funkcií, vrátane konzistencie dokázanej v predchádzajúcich častiach, zostáva zachované aj pre takto modifikované hĺbky. Potenciál nového prístupu je demonštrovaný na rade príkladov, v ktorých známe hĺbky zlyhávajú pri identifikácii odĺahlých pozorovaní.
Abstract v angličtině:
Statistical data depth is a nonparametric tool applicable to multivariate datasets in an attempt to generalize quantiles to complex data such as random vectors, random functions, or distributions on manifolds and graphs. The main idea is, for a general multivariate space M, to assign to a point x ∈ M and a probability distribution P on M a number D(x; P ) ∈ [0, 1] characterizing how “centrally located” x is with respect to P . A point maximizing D(·; P ) is then a generalization of the median to M-valued data, and the locus of points whose depth value is greater than a certain threshold constitutes the inner depth-quantile region corresponding to P . In this work, we focus on data depth designed for infinite-dimensional spaces M and functional data. Initially, a review of depth functionals available in the literature is given. The emphasis of the exposition is put on the unification of these diverse concepts from the theoretical point of view. It is shown that most of the established depths fall into the general framework of projection-driven functionals of either integrated, or infimal type. Based on the proposed methodology, characteristics and theoretical properties of all these depths can be evaluated simultaneously. The first part of the work is devoted to the investigation of these theoretical properties, mainly consistency and measurability, and conditions under which these can be guaranteed. It is shown that some of the most used well-established depths fail to meet these vital conditions, and hence cannot be considered suitable for statistical analysis. For these functionals, our main contribution consists of providing some modifications to these depths, and finding sufficient conditions for their consistency to hold. For the family of integrated depths for functional data, we present a comprehensive study of their most important theoretical properties, including a discussion on the desir- able features that an infinite-dimensional depth functional should satisfy. It is shown that many, but not all, properties of an integrated depth are shared with the finite-dimensional depth that constitutes its building block. Some pending measurability issues connected with all integrated depth functionals are resolved, a broad new notion of symmetry for functional data is proposed, and difficulties with respect to some related consistency re- sults are identified. General universal consistency results for the sample version, and the associated median, of integrated depths for functions are derived. In the second part of the work we focus on extensions and applications of the proposed methodology. First, we deal with a practical issue connected with the general idea of functional depths. Usually, random functions are not possible to be observed continu- ously at each point of their domain, but rather a finite grid of their functional values is known. Following this motivation, we develop the theoretical background for data depth in the framework of discretely observed functional data. A general result on weak con- vergence of the empirical measure of discretely observed functional data is established. It is applied to the problem of consistency of various types of depth for functional data. On counterexamples we illustrate the fact that the assumptions as stated cannot be dropped easily, and some further applications of the devised convergence result outside the field of data depth are outlined. Then, we provide a formal introduction to the use of integrated depths for functional data whose trajectories are not necessarily continuous. The question of measurability, inherently present in the definition of such depths, is resolved. As a corollary of this result, the uniform strong consistency of the sample version of integrated depth is established for the case when the random functions are Borel measurable. 1 2 In the final part of the work, we focus on a major drawback of many established depth functionals — their ineffectiveness in identifying functions outlying merely in shape. Within the framework of general integrated and infimal depths for functions, a simple modification of these functionals is proposed to provide a remedy for these difficulties. The modification is versatile, widely applicable, and introduced without imposing any assumptions on the data, such as differentiability. It is shown that many favourable at- tributes of the original depths for functions, including the consistency properties demon- strated earlier, remain preserved for the modified depths. The powerfulness of the new approach is demonstrated on a number of examples for which the established depths fail to identify the outlying functions.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Stanislav Nagy 5.17 MB
Stáhnout Abstrakt v českém jazyce Mgr. Stanislav Nagy 48 kB
Stáhnout Abstrakt anglicky Mgr. Stanislav Nagy 47 kB
Stáhnout Posudek vedoucího doc. RNDr. Daniel Hlubinka, Ph.D. 39 kB
Stáhnout Posudek oponenta prof. Gerda Claeskens 120 kB
Stáhnout Posudek oponenta prof. RNDr. Marie Hušková, DrSc. 144 kB
Stáhnout Záznam o průběhu obhajoby 530 kB