Teoría de Normalidad

Everyone believes in the [normal] law of errors: the mathematicians, because they think it is an experimental fact; and the experimenters, because they suppose it is a theorem of mathematics

Contenido

  • Teorema Central del Límite

  • Pruebas de Normalidad

  • Teorema de Chebyshev

  • Cotas

  • Ejemplos

Teorema Central del Límite

Introducción

Pre-historia (1783)

En un documento de 

7

hojas titulado

Approximatio ad summam teminorum binomi in seriem expansi.

Abraham de Moivre aproxima la siguiente probabilidad:

P(Z = [\frac{n}{2}] + i)=2^{-n}\binom{n}{[\frac{n}{2}] + i}
P(Z=[n2]+i)=2n(n[n2]+i)P(Z = [\frac{n}{2}] + i)=2^{-n}\binom{n}{[\frac{n}{2}] + i}

Que haya exactamente [n/2] + i éxitos en n intentos, con n muy grande.

Primero, obtuvo las siguientes aproximaciones:

\frac{\binom{n}{[\frac{n}{2}]}}{2^i}\approx\frac{2}{\sqrt{2\pi n}}
(n[n2])2i22πn\frac{\binom{n}{[\frac{n}{2}]}}{2^i}\approx\frac{2}{\sqrt{2\pi n}}
log\Bigg(\frac{\binom{n}{[\frac{n}{2}] + i}}{\binom{n}{[\frac{n}{2}]}}\Bigg)\approx -2\frac{i^2}{n}
log((n[n2]+i)(n[n2]))2i2nlog\Bigg(\frac{\binom{n}{[\frac{n}{2}] + i}}{\binom{n}{[\frac{n}{2}]}}\Bigg)\approx -2\frac{i^2}{n}

Para obtener esta approximación utilizó la expansión en serie de potencias de log(1 +x) y la approximación de Stirling para n!

De aquí es fácil probar que:

P(Z = [\frac{n}{2}] + i)\approx\frac{2}{\sqrt{2\pi n}}e^{-2\frac{i^2}{n}}
P(Z=[n2]+i)22πne2i2nP(Z = [\frac{n}{2}] + i)\approx\frac{2}{\sqrt{2\pi n}}e^{-2\frac{i^2}{n}}
P(Z = [\frac{n}{2}] +i) = 2^{-n}\binom{n}{[\frac{n}{2}]+i}=\frac{2}{\binom{n}{[\frac{n}{2}]}\sqrt{2\pi n}}\binom{n}{[\frac{n}{2}]}e^{-2\frac{i^2}{n}}
P(Z=[n2]+i)=2n(n[n2]+i)=2(n[n2])2πn(n[n2])e2i2nP(Z = [\frac{n}{2}] +i) = 2^{-n}\binom{n}{[\frac{n}{2}]+i}=\frac{2}{\binom{n}{[\frac{n}{2}]}\sqrt{2\pi n}}\binom{n}{[\frac{n}{2}]}e^{-2\frac{i^2}{n}}
Z=\displaystyle\sum_{i=1}^n x_i; x_i\sim Bernoullie(\frac{1}{2})
Z=i=1nxi;xiBernoullie(12)Z=\displaystyle\sum_{i=1}^n x_i; x_i\sim Bernoullie(\frac{1}{2})

Introducción

Historia (1774-1853)

Laplace

P\Bigg(\|\displaystyle\sum_{j=1}^n\lambda_j(\epsilon_j-\mu)\|_1\leq a \sqrt{\displaystyle\sum_{j=1}^n\lambda_j^2}\Bigg) \approx \frac{2}{\sigma\sqrt{2\pi}}\int_0^ae^{-\frac{x^2}{2\sigma^2}}dx
P(j=1nλj(ϵjμ)1aj=1nλj2)2σ2π0aex22σ2dxP\Bigg(\|\displaystyle\sum_{j=1}^n\lambda_j(\epsilon_j-\mu)\|_1\leq a \sqrt{\displaystyle\sum_{j=1}^n\lambda_j^2}\Bigg) \approx \frac{2}{\sigma\sqrt{2\pi}}\int_0^ae^{-\frac{x^2}{2\sigma^2}}dx

Quería probar que la probabilidad de la suma de ángulos de trayectorias de cometas se encontraba dentro de ciertos límites.

1786

Laplace nunca dio cuenta del error de aproximación, en lugar de esto confió ciegamente en el poder de la approximación por series de potencias

"The series converges the faster the more complicated the formula is, such that the procedure is more precise the more it becomes necessary"

- Laplace, 1786

E(n) = \displaystyle\sum_{k=1}^m\frac{B_{2k}}{2k(2k-1)n^{2k-1}}
E(n)=k=1mB2k2k(2k1)n2k1E(n) = \displaystyle\sum_{k=1}^m\frac{B_{2k}}{2k(2k-1)n^{2k-1}}

Desgraciadamente, en 1811 Legendre probó la divergencia de una serie equivalente a la usada por Laplace en su prueba.

[50G-1.87663G; 50+1.87663]

Afortunadamente, Laplace pudo probar que la suma del ángulo de 97 cometas se encuentra dentro del intervalo: 

Rechazando así la hipótesis de que estos se mueven de manera aletoria.

Introducción

Historia (1774-1853)

Poisson

P\Bigg(\gamma\leq \frac{\displaystyle\sum_{n=1}^s(X_n-E(X_n))}{\sqrt{\displaystyle\sum_{n=1}^sVar(X_n)}}\leq \gamma'\Bigg) \approx \frac{1}{\sqrt{\pi}}\int_\gamma^{\gamma'}e^{-u^2}du
P(γn=1s(XnE(Xn))n=1sVar(Xn)γ)1πγγeu2duP\Bigg(\gamma\leq \frac{\displaystyle\sum_{n=1}^s(X_n-E(X_n))}{\sqrt{\displaystyle\sum_{n=1}^sVar(X_n)}}\leq \gamma'\Bigg) \approx \frac{1}{\sqrt{\pi}}\int_\gamma^{\gamma'}e^{-u^2}du

Con una noción primitiva de variable aleatoria, Poisson enunció su versión particular del TCL.

A diferencia de Laplace, Poisson fue conciente de las limitaciones de su método y dio un ejemplo de distribución para el cual su teorema no se cumplía.

f(x) = \frac{1}{\pi(1+x^2)}
f(x)=1π(1+x2)f(x) = \frac{1}{\pi(1+x^2)}

Introducción

Historia (1774-1853)

Cauchy

Esta es la versión más precisa de todas las vistas hasta este momento. Es rigurosamente equivalente a la actual y además da cuenta del error de aproximación.

\Bigg\|P\Bigg(-v\leq\sum_{j=1}^n\lambda_j\epsilon_j\leq v\Bigg)-\frac{2}{\sqrt{\pi}}\int_0^{\frac{v}{2\sqrt{c\Lambda}}}e^{-\theta^2}d\theta\Bigg\| \leq C_1(n) + C_2(n,v) + C_3(n)
P(vj=1nλjϵjv)2π0v2cΛeθ2dθC1(n)+C2(n,v)+C3(n)\Bigg\|P\Bigg(-v\leq\sum_{j=1}^n\lambda_j\epsilon_j\leq v\Bigg)-\frac{2}{\sqrt{\pi}}\int_0^{\frac{v}{2\sqrt{c\Lambda}}}e^{-\theta^2}d\theta\Bigg\| \leq C_1(n) + C_2(n,v) + C_3(n)

Cauchy no se tomó la molestia de dar una prueba formal... sólo dió un esbozo.

Pero si se tomó la molestia de escribir:

"El análisis por medio del cual él (Laplace) estableció las propiedades del método para el cual uso series de potencias cuya convergencia no fue probada. M. Cauchy lo ha reemplazado por una fórmula exacta y rigurosa".

Introducción

Otras contribuciones

  • Gauss: Ley de Errores.

  • Hagen, Bessel: Redescubrimiento y Generalización de la ley de Errores Elementales.

  • Chebyshev: Problema de Momentos.

  • Poincaré: Momentos e Hipótesis de errores elementales.

Teroma Central del Límite

Sean

X_1, X_2,... X_n
X1,X2,...XnX_1, X_2,... X_n

variables aleatorias iid. Con media 0 y 

varianza

\sigma^2_x<\infty
σx2<\sigma^2_x<\infty

. Supongamos además que la función 

generadora de momentos existe.

M_x(t)
Mx(t)M_x(t)

P.D.

{\frac{1}{\sqrt{n\sigma^2_x}}\displaystyle\sum_{i=1}^nx_i} \sim N(0,1)
1nσx2i=1nxiN(0,1){\frac{1}{\sqrt{n\sigma^2_x}}\displaystyle\sum_{i=1}^nx_i} \sim N(0,1)
n\rightarrow\infty
nn\rightarrow\infty
d
dd

Teroma Central del Límite

Prueba

S_n=\displaystyle\sum_{i=1}^n X_i
Sn=i=1nXiS_n=\displaystyle\sum_{i=1}^n X_i

Definamos

y

Z_n=\frac{S_n}{\sqrt{ n\sigma^2_x}}
Zn=Snnσx2Z_n=\frac{S_n}{\sqrt{ n\sigma^2_x}}

entonces

M_{S_n}(t)=\frac{d}{dt}E(e^{S_nt})=\frac{d}{dt}E(e^{S_nt})=\frac{d}{dt}E(\prod e^{x_it})=\prod\frac{d}{dt}E(e^{x_it})=M_x^n(t)
MSn(t)=ddtE(eSnt)=ddtE(eSnt)=ddtE(exit)=ddtE(exit)=Mxn(t)M_{S_n}(t)=\frac{d}{dt}E(e^{S_nt})=\frac{d}{dt}E(e^{S_nt})=\frac{d}{dt}E(\prod e^{x_it})=\prod\frac{d}{dt}E(e^{x_it})=M_x^n(t)

Luego

M_{Z_n}(t)=\Bigg(M_x\bigg(\frac{t}{\sigma_x\sqrt{n}}\bigg)\Bigg)^n
MZn(t)=(Mx(tσxn))nM_{Z_n}(t)=\Bigg(M_x\bigg(\frac{t}{\sigma_x\sqrt{n}}\bigg)\Bigg)^n

Usando Taylor vemos que:

M_x(s)=M_x(0)+sM'_x(0)+\frac{1}{2}s^2M''_x(0)+O(s^{-2})
Mx(s)=Mx(0)+sMx(0)+12s2Mx(0)+O(s2)M_x(s)=M_x(0)+sM'_x(0)+\frac{1}{2}s^2M''_x(0)+O(s^{-2})

De aquí se sigue que:

M_x(s)=1+\frac{\sigma^2_x}{2}s^2+O(s^{-2})
Mx(s)=1+σx22s2+O(s2)M_x(s)=1+\frac{\sigma^2_x}{2}s^2+O(s^{-2})

Haciendo

s=\frac{t}{\sigma_x\sqrt{n}}
s=tσxns=\frac{t}{\sigma_x\sqrt{n}}

tenemos que:

M_{Z_n}(t)=\bigg(1 + \frac{t^2}{2n}+O(n^{-2})\bigg)^n
MZn(t)=(1+t22n+O(n2))nM_{Z_n}(t)=\bigg(1 + \frac{t^2}{2n}+O(n^{-2})\bigg)^n

Entonces

\displaystyle\lim_{n\rightarrow\infty}M_{z_n}(t)=\displaystyle\lim_{n\rightarrow\infty}\bigg(1 +\frac{\frac{t^2}{2}+nO(n^{-2})}{n}\bigg)^n
limnMzn(t)=limn(1+t22+nO(n2)n)n\displaystyle\lim_{n\rightarrow\infty}M_{z_n}(t)=\displaystyle\lim_{n\rightarrow\infty}\bigg(1 +\frac{\frac{t^2}{2}+nO(n^{-2})}{n}\bigg)^n
\displaystyle\lim_{n\rightarrow\infty}\bigg(1 +\frac{\frac{t^2}{2}}{n}\bigg)^n
limn(1+t22n)n\displaystyle\lim_{n\rightarrow\infty}\bigg(1 +\frac{\frac{t^2}{2}}{n}\bigg)^n
e^{\frac{t^2}{2}}
et22e^{\frac{t^2}{2}}

Teroma Central del Límite

Extensiones

  • Independencia

  • Varianza finita

  • Identicamente distribuidas

Pruebas de Normalidad

Pruebas Estadísticas

Definiciones

Poder

El poder de una prueba que rechaza una hipótesis H si un estadístico de prueba T cae en la región crítica K se define como:

\theta\rightarrow P(T\in K|\theta)
θP(TKθ)\theta\rightarrow P(T\in K|\theta)
H:\theta\in\Theta_0
H:θΘ0H:\theta\in\Theta_0

Tamaño 

El tamaño de una prueba se define como:

\alpha=\displaystyle\min_{\alpha}\bigg\{\displaystyle\sup_{\theta\in\Theta_0}\{\pi_n(\theta)\}\leq\alpha\bigg\}
α=minα{supθΘ0{πn(θ)}α}\alpha=\displaystyle\min_{\alpha}\bigg\{\displaystyle\sup_{\theta\in\Theta_0}\{\pi_n(\theta)\}\leq\alpha\bigg\}

Pruebas de Normalidad

Prueba

\chi^2
χ2\chi^2
\hat{P}
P^\hat{P}
P^*
PP^*
\hat{P}
P^\hat{P}
P^*
PP^*

Pruebas de Normalidad

Prueba

\chi^2
χ2\chi^2
\displaystyle\sum_{i=1}^k\frac{n(P_n(S_j)-\hat{P}(S_j))^2}{\hat{P}(S_j)}
i=1kn(Pn(Sj)P^(Sj))2P^(Sj)\displaystyle\sum_{i=1}^k\frac{n(P_n(S_j)-\hat{P}(S_j))^2}{\hat{P}(S_j)}
\sim\chi_{k-1}^2
χk12\sim\chi_{k-1}^2

Rechasamos la hipótesis de que vienen de la misma distribución si este valor excede 

\alpha
α\alpha

El nivel de confianza de la prueba.

Teorema de Chebyshev

Cotas

Ejemplos

Made with Slides.com