Raíra Marotta
Curso Big Data e Data Science
Aula 6 - Distribuição Normal
Suponha que temos variáveis com escalas diferentes e gostaríamos de poder compará-las.
Uma possível solução envolve padronizá-las.
Esse processo envolve:
Interpretação: número de desvios que cada valor dista da média.
## No R:
#Simulando 10 números
x <- sample(10,size = 10)
[1] 3 4 5 7 2 8 9 6 10 1
mean(x)
[1] 5.5
sd(x)
[1] 3.02765
# Retirando a média
desvios.media = x - mean(x)
[1] -2.5 -1.5 -0.5 1.5 -3.5 2.5 3.5 0.5 4.5 -4.5
# Dividindo pelo desvio padrao
z = (desvios.media)/sd(x)
z
[1] -0.8257228 -0.4954337 -0.1651446 0.4954337 -1.1560120
[6] 0.8257228 1.1560120 0.1651446 1.4863011 -1.4863011
Padronizar os dados não muda sua forma, somente sua escala.
## No R:
x <- rnorm(5000, 5, 2)
z <- (x- mean(x))/sd(x)
hist(x, freq = FALSE)
hist(z, freq = FALSE)
Padronizar os dados não muda sua forma, somente sua escala.
## No R:
x <- rnorm(5000, 5, 2)
z <- (x- mean(x))/sd(x)
hist(x, freq = FALSE)
hist(z, freq = FALSE)
MODELO NORMAL: muito comum e o mais importante em toda a estatística. Chamado também de modelo Gaussiano.
PROPRIEDADES
Seja X uma v.a com distribuição
e Y uma v.a com
distribuição
Chamamos de normal padrão a distribuição normal que tem média 0 e desvio padrão 1.
# Normal padrão
curve(dnorm(x, 0, 1), lwd =2, xlim=c(-4,4),
ylab = "f(x)",xlab = "x" )
Suponha que a altura de um grupo de crianças tenha em média 1.2m e desvio padrão 0.3m.
1.0m
1.5m
Média: 1.2m SD: 0.3m
1.0m
1.5m
Média: 1.2m SD: 0.3m
1.2m
1.0m
1.5m
Média: 1.2m SD: 0.3m
1.2m
Padronizando: z = (1-1.2)/0.3 = - 0.66
Padronizando: z = (1.5-1.2)/0.3 = 1
1.0m
1.5m
Média: 1.2m SD: 0.3m
1.2m
Padronizando: z = (1-1.2)/0.3 = - 0.66
Padronizando: z = (1.5-1.2)/0.3 = 1
Olhe na tabela!!
P(Z < 1) - P(Z < -0.66) =
= 0.8413 - 0.2546 =
= 0.5867
# Exercício tabela normal -----
# Suponha que a altura de um grupo de crianças tenha em média 1.2m e desvio padrão 0.3m.
# Qual a probabilidade de uma criança selecionada ao acaso ter entre 1m e 1.5m?
lower.x <- -0.66
upper.x <- 1
step <- (upper.x - lower.x) / 100
sigma <- 1
mu <- 0
bounds <- c(mu-4*sigma, mu+4*sigma)
cord.x <- c(lower.x,seq(lower.x,upper.x,step),upper.x)
cord.y <- c(0,dnorm(seq(lower.x,upper.x,step),mu,sigma),0)
curve(dnorm(x,mu,sigma),xlim=bounds,
ylab = "f(x)",xlab = "x", lwd = 2 )
polygon(cord.x,cord.y,col='#7bbcf2')
pnorm(1,0,1) - pnorm(-0.66,0,1)
Utilizado para checar se uma determinada distribuição de frequências se adequa a uma determinada distribuição de probabilidades
Segundo o TCL, quando o tamanho da amostra é suficientemente grande, a distribuição da soma é uma distribuição aproximadamente normal.
Isso indica que a distribuição da média também é normal.
## No R:
p <- 0.2
N.repeticoes <- 10000
N.amostra <- 1000
X.barra <- replicate(N.repeticoes, {
X <- sample(c(0,1), size=N.amostra, replace=TRUE, prob=c(1-p, p))
mean(X)
})
hist(X.barra, freq = FALSE, breaks = 10)
qqnorm(X.barra)
qqline(X.barra)