Middelværdier på mangfoldigheder
Pernille E.H. Hansen
University of Copenhagen
Indhold
- Motivation
- Mangfoldigheder
- Fréchet middelværdien
- Den generaliserede centrale middelværdisætning
- Diffusionsmiddelværdien
Middelværdi på \( \mathbb{R}^n \)
-
Eksisterer entydigt hvis \(\mathbb{E}[|Y|]<\infty \)
- Store tals lov $$ \mu_N \overset{a.s.}{\to} \mu$$
- Den centrale grænseværdisætning $$\sqrt{N}\mu_N \to \mathcal{N}(\mu,\Sigma)$$
\(X_1 ,...,X_N\overset{\text{iid}}{\sim} X \in M :\)
\( Y :\Omega \to \mathbb{R}^n \)
\( M \) ikke lineært rum
\(X: \Omega\to M :\)
Ikke lineært data?
Mål:
- Udvikle statistiske begreber og metoder for ikke lineært data
- Beskrive deres opførsel (eksistens, entydighed, konsistens, osv.)
Medicinsk billedanalyse
Alzheimer's Ændringer i
Corpus Callosum (CC)
Hypotese: (AD) kan blive opdaget fra form på (CC).
Mål:
- Bruge ikke lineær statistik til at diagnosticere (AD)
- Skelne mellem undertyper
Mangfoldigheder
En topologisk mangfoldighed \(M\) af dimension \( n\) er et topologisk rum der opfylder
- \( M\) er Hausdorff
- \( M \) er 2. countable
- \( M \) er lokalt homeomorf til \( \mathbb{R}^n\)
En glat mangfoldighed er udstryret med et atlas \( (U_\alpha,\varphi_\alpha )\) med glatte transitions afbildninger.
Mangfoldigheder
Til ethvert punkt \( x\in M \) findes et tangetrum \(T_xM\cong \mathbb{R}^n \).
En Riemannsk metrik er en samling af indre produkter \(\langle \cdot,\cdot\rangle_x \).
Den nedarvede metrik på \( M \) er da
$$ dist(x,y) = \inf \{ L(\gamma) | \gamma(0)=x,\gamma(1)=y \} $$
Længden af en kurve \( \gamma:[0,1] \to M \)$$L(\gamma) = \int^1_0 || \gamma'(t) ||_{\gamma(t)}dt$$
Geodæter er lokalt længdeminimerende kurver.
\( x\)
\( y \)
Mangfoldigheder
For sandsynlighedsrum \( (\Omega, \mathcal{B}, P) \) kan vi betragte stokastiske variabel \( X: \Omega \to M \)
Afbildningen \(p_X: M\to [0,1] \) er en tæthed for \( X\) mht. volumemålet \( dM\) hvis
$$ P(x\in B) = \int_B p_X(y) d M(y)$$
for alle \( B\in \mathcal{B}(M) \).
For \( f:M \to \mathbb{R}^d \) er \(f(X):\Omega \to \mathbb{R}^d\) er reel stok. variabel, med middelværdi
$$ \mathbb{E}[f(X)] = \int f(y) p_X(y) dM(y)$$
Mangfoldigheder
Fréchet middelværdien
Middelværdien \( \mathbb{E}[X] \) af \( X: \Omega \to \mathbb{R}^n \) opfylder
Definition:
Det Riemannske center af en stok. variabel \( X:\Omega \to M\) er
Hvis \( M = \{ \mu \} \), siger vi at \( \mu\) er Fréchet middelværdien af \( X \).
Eksistens og entydighed
- Eksistens er ikke garanteret
- Entydighed er bestemt heller ikke!
Sætning [Karcher & Kendall]
Der eksisterer en entydig Fréchet middelværdi i \( B = B(y,r) \subset M\), hvis \( X:\Omega \to M \) kun har masse i \( B\) og B opfylder:
- Entydige geodæter
- Begrænset krumning og radius
Estimator
For \( X_1,...,X_N\overset{\text{iid}}{\sim} X\) defineres den empiriske Fréchet funktionen
$$ F_N(y) = \frac{1}{N} \sum_{i=1}^N dist(y,X_i)^2$$
og dermed de empiriske Fréchet middelværdier
$$ E_N = \arg\min_{y\in M} F_N(y) $$
Den generaliserede centrale grænseværdisætning
På \( \mathbb{R}^m \)
CLT:
For \( X_1,...,X_N\overset{iid}{\sim} X \) på \( \mathbb{R}^m \) med \( \mathbb{E}[X] = \mu \) og \( \mu_N = \frac{1}{N} \sum_{i=1}^N X_i \)
På Riemannsk mangfoldiged \( M \)
GCLT:
For \( X_1,...,X_N\overset{iid}{\sim} X \) på \( M \) med \( E = \{\mu\} \) og estimator \( \mu_N \in E\)
\( k\geq 0 \)
Konsekvenser:
- Regression (normalfordelt fejlled)
- Konfidensinterval
Eksempel
Entydig Fréchet m. \( \mu \)
med rate \( \sqrt{n}\)
Entydig Fréchet m. \( \mu \)
med rate \( n^{1/6} \)
Uendeligt mange m.
*Stephan Huckemann & Benjamin Eltzner (2018)
under polskifte
Magnetiske nordpolspositioner
- 150 dataset bestående af den magnetiske nordpolsposition
- Empirisk Fréchet middelværdi for \( k\in [1,1000] \)
- Varians udregnes og skaleres med \(k\)
Diffusions-middelværdier
Brownian motion på mangfoldigheder
For \( X_1,...,X_N \overset{iid}{\sim} X \in M \)
$$ \mu = \arg\max_{y\in M} \frac{1}{N} \sum_{i=1}^N \ln(p(y,X_i,t))$$
mest sandsynlighed start af \( (B_t)\)
En Brownian motion på \( M \) er en Markov process \( (B_t )\) med tæthed \( p(x,y,t) \) hvor \(p\) er varmeledningsfunktion på \( M\)
Diffusions \(t\)-middelværdier
Fix \(t>0\). Diffusions \(t\)-middelværdier \(E_t(X)\) af en stoc. variabel \(X: \Omega \to M\) er de værdier der minimerer log-likelihood funktionen,
$$ L_t(y) = \mathbb{E}[-\ln p(y,X,t)]$$
Altså,
$$ E_t(X) = \arg\min_{y\in M} \mathbb{E}[-\ln p(y,X,t)]$$
På \(\mathbb{R}^n\)?
Varmeledningsfunktionen på \(\mathbb{R}^n\) for ethvert \(t>0\) er
For \( X:\Omega \to \mathbb{R}^n \), har vi
Eksempel på Sfæren
Betragt \(X: \Omega \to \mathcal{S}^2 \):
For \(t>0\) og \(\alpha\in [0,1/2]\), hvad er diffusions \(t\)-middelværdierne?
For \(m\geq 2\) og \(t>0.838\) eksisterer \(\alpha(t)\) så
Fréchet middelværdierne
- \(\alpha = 0\): Entydig
- \( \alpha>0\): Uendelig mange
Diffusion \(t\)-middelværdierne
- \( \alpha \leq \alpha(t) \): Entydig diffusions \(t\)-middelværdi i \(\mu\)
- \( \alpha > \alpha(t)\) : Uendeligt mange
Derudover, \(\alpha(t) \to 1/2\) når \(t\to \infty\)
Estimator
For \( X_1,...,X_N\overset{\text{iid}}{\sim} X\) defineres den empiriske Diffusions \(t\)-funktion
$$ L_{t,N}(y) = \frac{1}{N} \sum_{i=1}^N -\ln(p(y,X_i,t))$$
og dermed de empiriske Diffusions \(t\)-middelværdier
$$ E_{t,N} = \arg\min_{y\in M} L_{t,N}(y) $$
GCLT:
For \( X_1,...,X_N\overset{iid}{\sim} X \) på \( M \) med \( E_t = \{\mu_t\} \) og estimator \( \mu_{t,N} \in E_{t,N}\)
For \(t>0.838\) eksisterer \(\alpha(t)\) så
Diffusion \(t\)-middelværdierne
- \( \alpha \leq \alpha(t) \): Entydig diffusions \(t\)-middelværdi
- \( \alpha > \alpha(t)\) : Uendeligt mange
- \( \alpha < \alpha(t) \): rate \( \sqrt{n} \)
- \( \alpha = \alpha(t)\) : rate \( n^{1/6} \)
under polskifte
Magnetiske nordpolspositioner
Tak for jeres opmærksomed!
Copy of Middelværdier på mangfoldigheder
By pernilleehh
Copy of Middelværdier på mangfoldigheder
- 224