Rafael monteiro

Fund\alpha mentos\hspace{1 mm} est\alpha tísticos\\ e\\ Conceitos\hspace{1 mm} básicos\hspace{1 mm} de\hspace{1 mm} prob\alpha bilidade \\Part\varepsilon \hspace{1 mm}2

Fundamentos estatísticos

Desafio

Você tem a tarefa de fazer uma pesquisa de satisfação da companhia por todo o país.

Infelizmente, será impossível bater de porta em porta para saber a opinião de cada consumidor.

Teremos que coletar a opinião de uma subgrupo menor de consumidores (i.e., uma amostra).

Como fazer isso?

Como fazer essa pesquisa?

Estatística!

Amostragem
Inferência
Correlação

Por que o design de um experimento importa?

Nas eleições norte-americanas de 1936, dois candidatos pleiteavam o cargo de presidente: Roosevelt e Landon.

Por que o design de um experimento importa?

Uma pesquisa da então prestigiada revista Literary Digest, previa que Landon ganharia com 62% dos votos. A pesquisa se baseava na maior pesquisa eleitoral já feita no mundo até então, com 2.4 milhões de eleitores.

Por que o design de um experimento importa?

Ao mesmo tempo, uma pesquisa feita por George Gallup com apenas 50 mil eleitores previa o resultado contrário: Roosevelt ganharia, com 56% dos votos.

Por que o design de um experimento importa?

Ao mesmo tempo, uma pesquisa feita por George Gallup com apenas 50 mil eleitores previa o resultado contrário: Roosevelt ganharia, com 56% dos votos.

No dia da eleição, Roosevelt ganhou com 62 % dos votos válidos.

Por que o design de um experimento importa?

Como isso foi possível?

Como, com uma “amostra” tão grande, a Literary Digest conseguiu errar tão feio?

Por que o design de um experimento importa?

A resposta se encontra em diversos fatores do design da amostragem da Literary Digest, que consistia em:

Enviar pesquisas pelo correio, a 10 milhões de leitores.
O nome e endereço dessas pessoas viriam de listas telefônicas e listas de membros de clubes (à época, apenas 1 em cada 4 casas tinha telefone).

O que pode haver de errado com esse procedimento?

Por que o design de um experimento importa?

A resposta se encontra em diversos fatores do design da amostragem da Literary Digest, que consistia em:

Enviar pesquisas pelo correio, a 10 milhões de leitores.
O nome e endereço dessas pessoas viriam de listas telefônicas e listas de membros de clubes (à época, apenas 1 em cada 4 casas tinha telefone).

O que pode haver de errado com esse procedimento?

Viés.

Por que o design de um experimento importa?

A resposta se encontra em diversos fatores do design da amostragem da Literary Digest, que consistia em:

Enviar pesquisas pelo correio, a 10 milhões de leitores.
O nome e endereço dessas pessoas viriam de listas telefônicas e listas de membros de clubes (à época, apenas 1 em cada 4 casas tinha telefone).

O que pode haver de errado com esse procedimento?

Viés. Em particular, dois tipos dele:

A seleção exclui pessoas com menor renda (viés de seleção).
Dos 10 M que receberam o questionário, apenas 2.4M responderam (viés de resposta).

Moral da estória

Nenhuma amostra grande melhora um experimento enviesado.

NEste caso, quanto maior a amostra, mais o erro inicial se amplifica, em uma escala cada vez maior.

Voltando ao nosso Desafio

Você tem a tarefa de fazer uma pesquisa de satisfação da companhia por todo o país.

Infelizmente, será impossível bater de porta em porta para saber a opinião de cada consumidor.

Teremos que coletar a opinião de uma subgrupo menor de consumidores (i.e., uma amostra).

Como fazer isso de forma a evitarmos viés?

Terminologia básica

População

conjunto de dados que contém uma característica ou qualidade que queremos estudar. (Ex.: todos os eleitores de uma eleição presidencial).

População

conjunto de dados que contém uma característica ou qualidade que queremos estudar. (Ex.: todos os eleitores de uma eleição presidencial).

No entanto, acesso à população inteira é impraticável e somente parte dela nos é acessível; a esta parte damos o nome de amostra.

Amostra

subconjunto de uma população

Amostra

subconjunto de uma população

AmostraGEM

PROCESSO de seleção de uma amostra

Amostra

subconjunto de uma população

AmostraGEM

PROCESSO de seleção de uma amostra

Chama-se inferência o processo de fazermos generalizações da parte (amostra) para o todo (população).

(Vocês estudarão este tema numa próxima aula.)

Diferentes tipos de amostragem

Amostragem aleatória simples

Média = \frac{800,00 + 12.000,00 + 2.375,00}{3} = R\$ 5.058,33

Soma todos os elementos

Divide pela quantidade de elementos

Amostragem aleatória simples

Média

Qual o valor usual de uma venda realizada em janeiro?

Cliente	Produto	Valor unitário	Unidades	Valor total	Data da venda
AB-1	Refrigerante	R$ 8,00	100	R$ 800,00	02/01/2023
BA-5	Cerveja	R$ 12,00	1000	R$ 12.000,00	10/01/2023
CD-3	Suco	$ 9,50	250	R$ 2.375,00	14/01/2023
DD-15	Água	R$ 4,00	5000	R$ 20.000,00	01/02/2023
EB-76	...	...	...	...	...

Média = \frac{800,00 + 12.000,00 + 2.375,00}{3} = R\$ 5.058,33

Soma todos os elementos

Divide pela quantidade de elementos

Média

Qual o valor usual de uma venda realizada em janeiro?

Cliente	Produto	Valor unitário	Unidades	Valor total	Data da venda
AB-1	Refrigerante	R$ 8,00	100	R$ 800,00	02/01/2023
BA-5	Cerveja	R$ 12,00	1000	R$ 12.000,00	10/01/2023
CD-3	Suco	$ 9,50	250	R$ 2.375,00	14/01/2023
DD-15	Água	R$ 4,00	5000	R$ 20.000,00	01/02/2023
EB-76	...	...	...	...	...

Média = \frac{800,00 + 12.000,00 + 2.375,00}{3} = R\$ 5.058,33

Soma todos os elementos

Divide pela quantidade de elementos

Média

Quanto, em média, é o valor de cada venda realizada em janeiro?

Cliente	Produto	Valor unitário	Unidades	Valor total	Data da venda
AB-1	Refrigerante	R$ 8,00	100	R$ 800,00	02/01/2023
BA-5	Cerveja	R$ 12,00	1000	R$ 12.000,00	10/01/2023
CD-3	Suco	$ 9,50	250	R$ 2.375,00	14/01/2023
DD-15	Água	R$ 4,00	5000	R$ 20.000,00	01/02/2023
EB-76	...	...	...	...	...

Média = \frac{800,00 + 12.000,00 + 2.375,00}{3} = R\$ 5.058,33

Soma todos os elementos

Divide pela quantidade de elementos

Média

Quanto, em média, é o valor de cada venda realizada em janeiro?

Cliente	Produto	Valor unitário	Unidades	Valor total	Data da venda
AB-1	Refrigerante	R$ 8,00	100	R$ 800,00	02/01/2023
BA-5	Cerveja	R$ 12,00	1000	R$ 12.000,00	10/01/2023
CD-3	Suco	$ 9,50	250	R$ 2.375,00	14/01/2023
DD-15	Água	R$ 4,00	5000	R$ 20.000,00	01/02/2023
EB-76	...	...	...	...	...

Média = \frac{800,00 + 12.000,00 + 2.375,00}{3} = R\$ 5.058,33

Soma todos os elementos

Divide pela quantidade de elementos

Média - definição

Média = \frac{V_1 + V_2 + ... + V_n}{N}

A média é uma medida de tendência central, agindo como um centro de massa de um conjunto de dados. Ela resume esse conjunto em um único número representativo.

O caso geral é dado pela equação abaixo:

onde\hspace{1 mm} V_i\hspace{1 mm} denota\hspace{1 mm} um\hspace{1 mm} valor\hspace{1 mm} do\hspace{1 mm} conjunto\hspace{1 mm} de\hspace{1 mm} dados\hspace{1 mm}\\ e\hspace{1 mm} N\hspace{1 mm} é\hspace{1 mm} a\hspace{1 mm} quantidade\hspace{1 mm} total\hspace{1 mm} de\hspace{1 mm} elementos.

Média - Visualização

Barras vermelhas indicam o quanto cada cliente comprou.

Média - Peculiaridades

A média resume valores, mas é incapaz de capturar variações entre eles.

Média - peculiaridades

É fortemente influenciada por valores muito discrepantes (outliers).

Cliente	Produto	Valor unitário	Unidades	Valor total	Data da venda
AB-1	Refrigerante	R$ 8,00	100	R$ 800,00	02/01/2023
BA-5	Cerveja	R$ 12,00	1000	R$ 12.000,00	10/01/2023
CD-3	Suco	$ 9,50	250	R$ 2.375,00	14/01/2023
DD-15	Whisky	R$ 1.500,00	1500	R$ 2.250.000,00	30/01/2023
EB-76	...	...	...	...	...

Média = \frac{800,00 + 12.000,00 + 2.375,00 + \color{red}2.250.000,00}{4} = \color{red}R\$ 60.043,75

Mediana - definição

Também é uma medida de tendência central que representa o valor que separa um conjunto de dados ordenado em duas partes de mesmo tamanho.

Cliente	Produto	Valor unitário	Unidades	Valor total	Data da venda
AB-1	Refrigerante	R$ 8,00	100	R$ 800,00	02/01/2023
BA-5	Cerveja	R$ 12,00	1000	R$ 12.000,00	10/01/2023
CD-3	Suco	$ 9,50	250	R$ 2.375,00	14/01/2023
DD-15	Whisky	R$ 1.500,00	1500	R$ 2.250.000,00	30/01/2023
EB-76	Cerveja	R$ 10,90	1200	R$ 13.080,00	31/01/2023

Dados desordenados

Mediana - número ímpar de dados

Também é uma medida de tendência central que representa o valor que divide um conjunto de dados ordenado em partes iguais.

Cliente	...	Valor Total
AB-1	...	R$ 800,00
BA-5	...	R$ 12.000,00
CD-3	...	R$ 2.375,00
DD-15	...	R$ 2.250.000,00
EB-76	...	R$ 13.080,00

Ordena-se os dados
[800; 2.375; 12.000; 13.080; 2.250.000,00];
Pega-se o elemento do meio;
[800; 2.375; 12.000; 13.080; 2.250.000,00]

Valor da mediana

Mediana - NÚMERO PAR DE DADOS

No exemplo anterior a quantidade de valores da base de dados era ímpar (5 dados). Agora vamos supor que nós tivéssemos 6 dados no conjunto, como que se calcula a mediana?

Cliente	...	Valor Total
AB-1	...	R$ 800,00
BA-5	...	R$ 12.000,00
CD-3	...	R$ 2.375,00
DD-15	...	R$ 2.250.000,00
EB-76	...	R$ 13.080,00
FV-26	...	R$ 26.000,00

Ordena-se os dados:
[800; 2.375; 12.000; 13.080; 26.000,00; 2.250.000,00]
Pega-se os elementos do meio:
[800; 2.375; 12.000; 13.080; 26.000,00; 2.250.000,00]
Faz a média dos 2 elementos centrais:
(12.000 + 13.080) / 2 = 12.540

Valor da mediana

MEDIANA - Visualização

Barras vermelhas indicam o quanto cada cliente comprou.

outra medida de tendência central que pode ser usada é a moda

Moda:

Útil para dados nominais, resistente a outliers, porém ela não representa dados uniformemente e é ineficaz com distribuições multimodais.

exemplo utilização da moda

Por exemplo, se fizermos um gráfico de frequência dos seguintes dados:

0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 5, 8, 8

Quando usar a média e quando usar a mediana?

Média

A média é mais sensível a outliers. Na presença deles, pode haver distorção.

Média

A média é mais sensível a outliers. Na presença deles, pode haver distorção.

Mediana

A mediana por sua vez desconsidera os outliers (mas requer ordenação).

Quantificando a dispersão dos dados

variância e desvio padrão

Indica dispersão dos valores numéricos em torno da média.

\text{Chamamos de desvio padrão o valor} \,\sigma = \sqrt{\sum_{k=1}^N\frac{\left(c_i - \overline{c}\right)^2 }{N}}.

variância e desvio padrão

Indica dispersão dos valores numéricos em torno da média.

\text{A variância é definida como} \, \sigma^2 \,\text{(o quadrado do desvio padrão)}.

VARIÂNCIA E DESVIO PADRÃO

Indica dispersão dos valores numéricos em torno da média.

Variância baixa indica dados concentrados ao redor da média.

Variância alta indica dados dispersos. O mesmo se aplica ao desvio padrão.

Intervalos interquartis

Quantifica dispersão dos dados ao redor da mediana. Para entendê-los precisamos da ideia de percentis.

Intervalos interquartis

Quantifica dispersão dos dados ao redor da mediana. Para entendê-los precisamos da ideia de percentis.

Quando os dados são ordenados, chamamos de percentis as faixas de corte que separam os dados em x% dos valores mais baixos.

Os valores de x mais utilizados são:

25% (o primeiro quartil, ou Q1);
50% (segundo quartil, ou mediana); ou
75% (terceiro quartil, ou Q3).

Intervalos interquartis

Quantifica dispersão dos dados ao redor da mediana. Para entendê-los precisamos da ideia de percentis.

Quando os dados são ordenados, chamamos de percentis as faixas de corte que separam os dados em x% dos valores mais baixos.

Os valores de x mais utilizados são:

25% (o primeiro quartil, ou Q1);
50% (segundo quartil, ou mediana); ou
75% (terceiro quartil, ou Q3).

O intervalo interquartil (IIQ) é dado pela diferença Q3 - Q1.

Diante dessas definições, podemos construir boxplots.

OUTLIERS E BOXPLOT

Com o boxplot é possível visualizarmos a dispersão dos dados ao redor da mediana.

Boxplots também são usados para identificarmos outliers, cuja caracterização dependerá do contexto.

outliers e boxplot

No nosso caso, temos o seguinte:

Não temos outliers, porém temos valores distantes da média e mediana

O que Fazer Quando outliers são

"um problema"?

Muitas vezes, outliers podem distorcer uma estatística (como vimos, no caso da média).

Em caso como este, não é incomum:

Muitas vezes, outliers podem distorcer uma estatística (como vimos, no caso da média).

Em caso como este, não é incomum:

Ignorarmos os outliers;
Substituirmos outliers por valores mais significativos (como a média ou mediana);
Separarmos os outliers do restante dos dados e tratá-los à parte.

exemplos extras e recomendações

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Sou um estagiário?
SOU UM CEO?

SE LEVARMOS EM CONTA SOMENTE A REMUNERAÇÃO, COMO USAR A VARIÂNCIA DE SALÁRIO (SE ALTA OU BAIXA) PARA DECIDIR EM QUAL DELAS É MELHOR TRABALHAR SE:

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Sou um estagiário?
SOU UM CEO?

SE LEVARMOS EM CONTA SOMENTE A REMUNERAÇÃO, COMO USAR A VARIÂNCIA DE SALÁRIO (SE ALTA OU BAIXA) PARA DECIDIR EM QUAL DELAS É MELHOR TRABALHAR SE:

Var. baixa é melhor!

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Sou um estagiário?
SOU UM CEO?

SE LEVARMOS EM CONTA SOMENTE A REMUNERAÇÃO, COMO USAR A VARIÂNCIA DE SALÁRIO (SE ALTA OU BAIXA) PARA DECIDIR EM QUAL DELAS É MELHOR TRABALHAR SE:

Var. baixa é melhor!

Var. alta é melhor!

qual a diferença entre os alvos de cima e os de baixo?

Livro:
“Noise, a flaw in human judgement”,
Kahneman, Sibony, e Sunstein, 2021

qual a diferença entre os alvos de cima e os de baixo?

Maior Variância

Livro:
“Noise, a flaw in human judgement”,
Kahneman, Sibony, e Sunstein, 2021

qual a diferença entre os alvos de cima e os de baixo?

Maior Variância

Maior Viés

Livro:
“Noise, a flaw in human judgement”,
Kahneman, Sibony, e Sunstein, 2021

Em um relatório de apresentação de resultados encontramos a seguinte frase:

“... constatamos que depois da contratação do novo serviço de cantina, a média de espera em fila caiu em mais de 20 minutos: na média, hoje espera-se 5 minutos em fila, com variância 4 minutos².”

Existe algum erro nessa frase?

variância ou desvio padrão?

Em um relatório de apresentação de resultados encontramos a seguinte frase:

Existe algum erro nessa frase?

Sim, pois a medida da variância está diferente da medida da média. Portanto precisamos tirar a raíz para termos o DESVIO PADRÃO

curiosidade - curva de pareto

É muito comum na área de negócios utilizarmos os dados ordenados (do maior para o menor) e acumulados para gerarmos uma curva, conhecida como curva de Pareto.

8 empresas sozinhas “fizeram” 80% das vendas de 2023.

histograma

Histogramas são gráficos de barras, onde o eixo horizontal representa (faixas de) valores coletados, enquanto o eixo vertical denota a frequência dos valores obtidos.

Explore How Income Influences Attendance at 139 Top Colleges, New York times, 11 de Setembro de 2023

até agora vimos tudo com apenas 1 variável. mas e se precisarmos realizar estudos com 2 ou mais variáveis

Por exemplo, uma pergunta que poderíamos tentar responder: o número de horas de treinamento de um vendedor impacta na sua média mensal de vendas?

gráfico de dispersão

Imaginem o seguinte gráfico para o ano de 2023

Aparentemente as horas de treinamento impactam a média de vendas positivamente.

correlação é um número que aponta a associação entre 2 variáveis

onde cov denota a covariância entre x e y, calculada como

\text{corr}(x,y) = \frac{\text{cov}(x,y) }{\sigma_x \,\sigma_y}

\text{cov}(x,y) = (\text{média dos produtos } x_iy_i) - \text{(média de x) (média de y)}

Correlação varia entre -1 e 1. Quanto mais próximo desses extremos, mais uma variável pode ser usada para explicar o comportamento médio da outra.

reta da equação de regressão

No caso estudado, temos:

Primeiramente, calculamos o centro médio da nuvem de pontos.

Se calcularmos correlação (denotada como r), variâncias amostrais em x e y, podemos traçar uma “tendência” dos dados a partir do seu centro médio.

No caso estudado, temos:

reta da equação de regressão

Para os dados que temos, obtivemos correlação r = 0.89.
Como interpretar esse índice?

No caso estudado, temos:

reta da equação de regressão

A leitura que se faz é a seguinte: associado a um aumento de 𝜎x em x, há um aumento médio de r 𝜎y em y.

No caso estudado, temos:

reta da equação de regressão

A reta que traçamos é conhecida como reta de regressão de y em x.

No caso estudado, temos:

reta da equação de regressão

Probabilidade

De certa maneira, todos nós temos uma ideia intuitiva de como se calcula a probabilidade de alguns eventos.

Por exemplo: se retirássemos uma bolinha aleatoriamente da caixa acima, qual a probabilidade dela ser vermelha?

De certa maneira, todos nós temos uma ideia intuitiva de como se calcula a probabilidade de alguns eventos.

Por exemplo: se retirássemos uma bolinha aleatoriamente da caixa acima, qual a probabilidade dela ser vermelha?

P(\text{bolinha ser vermelha}) = \frac{\text{\# bolinhas vermelhas}}{\text{\# total de bolinhas}}

Evento Aleatório

situação ou acontecimento no qual há incerteza não podendo ser previsto com certeza.

PREVISÃO DO TEMPO, LOTERIAS, JOGOS DE FUTEBOL, CARA-COROA, LANÇAMENTO DE DADO.

espaço amostral

Conjunto de todos os possíveis resultados de um evento aleatório.

Os subconjuntos do espaço amostral são chamados “eventos.” Visualmente, podemos entendê-los como divisões de um terreno de área total 1.

probabilidade

Dado que temos um espaço amostral com eventos que o constituem, podemos quantificar a ideia de incerteza introduzindo a noção de probabilidade.

Probabilidade: é uma função avaliada em subconjuntos de um espaço amostral E, de tal forma que

\sum_{k=1}^{n}P\left ( E_k \right ) = P\left ( \cup E_k \right ),\hspace{1 mm} quando\hspace{1 mm} E_k \hspace{1 mm} s\tilde{a}o\hspace{1 mm} disjuntos; \\ 0\leq P\left ( A \right )\leq 1 = P\left ( E \right ),\hspace{1 mm} para\hspace{1 mm} qualquer\hspace{1 mm} evento\hspace{1 mm} A\subset E

Variável aleatória (v.a.): é uma função X que assume valores seguindo uma lei probabilistica:

P\left(X = x_i\right) = p_i

Exemplo:

Um dado não viciado modela a seguinte Variável aleatória (v.a.):

Variável aleatória (v.a.): é uma função X que assume valores seguindo uma lei probabilistica:

P\left(X = x_i\right) = p_i

Exemplo:

Um dado não viciado modela a seguinte Variável aleatória (v.a.):

Ou seja:

Variável aleatória (v.a.): é uma função X que assume valores seguindo uma lei probabilistica:

P\left(D = i\right) = \frac{1}{6},\hspace{1 mm} para\hspace{1 mm} qualquer\hspace{1 mm} i\hspace{1 mm} \in \{1, \ldots, 6\}.

P\left(X = x_i\right) = p_i

variáveis independentes

Um outro conceito muito importante é o de independência de eventos.

Eventos independentes: dois eventos A e B são independentes quando a seguinte propriedade é válida:

P(A \cap B) = P(A) \cdot P(B)

qual a probabilidade de jogarmos dados 2 vezes e tirarmos os Números 1 e 2 (Em qualquer ordem)?

(1/6)^2

qual a probabilidade de jogarmos dados 2 vezes e tirarmos os Números 1 e 2 (Em qualquer ordem)?

Chance

de tirarmos

1 e 2

(1/6)^2 + (1/6)^2

qual a probabilidade de jogarmos dados 2 vezes e tirarmos os Números 1 e 2 (Em qualquer ordem)?

Chance

de tirarmos

1 e 2

Chance

de tirarmos

2 e 1

(1/6)^2 + (1/6)^2 = 1/18

qual a probabilidade de jogarmos dados 2 vezes e tirarmos os Números 1 e 2 (Em qualquer ordem)?

Chance

de tirarmos

1 e 2

Chance

de tirarmos

2 e 1

Dado que numa corrente a probabilidade de um elo quebrar é de 1%, qual é a chance de uma corrente com 50 elos independentes se romper?

P(\text{Corrente romper}) = 1 - P(\text{Corrente não romper})

(*)

Sabemos que

Dado que numa corrente a probabilidade de um elo quebrar é de 1%, qual é a chance de uma corrente com 50 elos independentes se romper?

P(\text{Corrente romper}) = 1 - P(\text{Corrente não romper})

(*)

Por independência, temos que

\begin{align*} \mathbb{P}(\text{Corrente não romper}) &= \mathbb{P}(\text{Elo}\, E_i \,\text{não romper}, 1 \leq i \leq 50)\\ &= \mathbb{P}(\text{Elo}\, E_1 \,\text{não romper})\ldots \mathbb{P}(\text{Elo}\, E_{50} \,\text{não romper})\\ &= \underbrace{(1 - 0.01)\ldots (1 - 0.01)}_{\text{\textcolor{red}{50 vezes}}} \quad \\ & \approx 0.605 \end{align*}

Sabemos que

Dado que numa corrente a probabilidade de um elo quebrar é de 1%, qual é a chance de uma corrente com 50 elos independentes se romper?

Logo, por (*), a chance de rompimento é de quase 30%!

(*)

Por independência, temos que

Sabemos que

P(\text{Corrente romper}) = 1 - P(\text{Corrente não romper})

Algumas distribuições

Distribuição Uniforme (discreta):
U é distribuída com pesos iguais para todo possível resultado

Distribuição Bernoulli:

Y é variável aleatória com dois possíveis valores, por ex, 0 e 1.

Algumas distribuições

Distribuição Uniforme (discreta):
U é distribuída com pesos iguais para todo possível resultado

Distribuição Bernoulli:

Y é variável aleatória com dois possíveis valores, por ex, 0 e 1.

\begin{align*} &\text{Neste caso, a variância é dada por } \\ &\sigma^2 = p(1-p). \end{align*}

Distribuição Uniforme (contínua)

U é distribuída com pesos iguais para todo possível intervalo de mesmo tamanho

Distribuição Uniforme (contínua)

Curiosamente, se geramos um grande número de variáveis uniformes independentes e plotarmos o histograma, obtemos uma curva parecida com a função densidade de probabilidade.

Distribuição exponencial

Y é variável aleatória que assume valores não-negativos, com alta probabilidade de valores próximos a zero e baixa probabilidade de valores altos.

Distribuição exponencial

Como no caso anterior, se geramos um grande número de variáveis uniformes independentes e plotarmos o histograma, obtemos uma curva parecida com a função densidade de probabilidade.

Distribuição normal

A mais utilizada. Modela diversos fenômenos: taxa de crescimento de uma ação com relação ao dia anterior, distribuição de estaturas numa população etc.

Probabilidades

são calculadas por

P(a \leq Z \leq b) = \int_a^b f(x)dx

onde

f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left( \frac{x - \mu}{\sigma}\right)^2}

Imagem: wikipedia

O teorema central do Limite

O maior motivo pelo qual a distribuição normal é utilizada é o seguinte

O teorema central do Limite

O maior motivo pelo qual a distribuição normal é utilizada é o seguinte

média

amostral

desvio padrão amostral

O teorema central do Limite

Por exemplo: se plotarmos o histograma de em amostras de

tamanho n, onde Xi foi extraído de uma uniforme (0,1), obtemos as seguintes visualizações

\frac{\overline{X} - \mu}{\left(\frac{\sigma}{\sqrt{n}} \right)}

O teorema central do Limite

Por exemplo: se plotarmos o histograma de em amostras de

tamanho n, onde Xi foi extraído de uma exponencial, obtemos as seguintes visualizações

\frac{\overline{X} - \mu}{\left(\frac{\sigma}{\sqrt{n}} \right)}

O teorema central do Limite

Em resumo

Quanto maior N, melhor a aproximação.
Acima de tudo, este resultado é universal, não dependendo da distribuição de X.

Exemplo de uso do teorema central do Limite

A empresa resolveu fazer uma promoção em suas bebidas, atribuindo tampas premiadas aleatoriamente a 10% da sua produção.

Em um engradado com 50 garrafas, qual é a chance de termos 10 ou mais delas premiadas?

Exemplo de uso do teorema central do Limite

Podemos modelar o problema da

seguinte forma:

uma garrafa é uma variável aleatória de valor 1 se premiada,

ou valor 0 caso contrário.

\begin{align*} &\text{Assim}, X_i \text{ tem distribuição Bernoulli com média } \mu = 0.1\\ &\text{e variância } \sigma^2 = \mu (1 - \mu) = 0.09. \end{align*}

Exemplo de uso do teorema central do Limite

Note que a pergunta que foi feita é equivalente à seguinte:

P\left(\sum_{i=1}^{50} X_i \geq 10\right) = P\left(\sum_{i=1}^{50}\frac{X_i}{50} \geq 0.2\right) =P\left(\overline{X} \geq \hat{x}\right)

Exemplo de uso do teorema central do Limite

Note que a pergunta que foi feita é equivalente à seguinte:

P\left(\sum_{i=1}^{50} X_i \geq 10\right) = P\left(\sum_{i=1}^{50}\frac{X_i}{50} \geq 0.2\right) =P\left(\overline{X} \geq \hat{x}\right)

\hat{x} =\sum_{i=1}^{50} \frac{X_i}{50} = 0.2

Ou seja, podemos calcular a probabilidade da média amostral ser maior que

(a média amostral observada).

Exemplo de uso do teorema central do Limite

Note que a pergunta que foi feita é equivalente à seguinte:

P\left(\sum_{i=1}^{50} X_i \geq 10\right) = P\left(\sum_{i=1}^{50}\frac{X_i}{50} \geq 0.2\right) =P\left(\overline{X} \geq \hat{x}\right)

\begin{align*} %&P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)\approx P\left(Z \geq 2.35 \right) \approx 0.01 &P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)%\approx P\left(Z \geq 2.35 \right) \approx 0.01 \end{align*}

\hat{x} =\sum_{i=1}^{50} \frac{X_i}{50} = 0.2

Ou seja, podemos calcular a probabilidade da média amostral ser maior que

(a média amostral observada).

Agora, usamos o TCL:

Exemplo de uso do teorema central do Limite

Note que a pergunta que foi feita é equivalente à seguinte:

P\left(\sum_{i=1}^{50} X_i \geq 10\right) = P\left(\sum_{i=1}^{50}\frac{X_i}{50} \geq 0.2\right) =P\left(\overline{X} \geq \hat{x}\right)

\begin{align*} %&P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)\approx P\left(Z \geq 2.35 \right) \approx 0.01 &P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)=P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{0.2- 0.1}{\sqrt{0.09\diagup 50}}\right)%\approx P\left(Z \geq 2.35 \right) \approx 0.01 \end{align*}

\hat{x} =\sum_{i=1}^{50} \frac{X_i}{50} = 0.2

Ou seja, podemos calcular a probabilidade da média amostral ser maior que

(a média amostral observada).

Agora, usamos o TCL:

Exemplo de uso do teorema central do Limite

Note que a pergunta que foi feita é equivalente à seguinte:

P\left(\sum_{i=1}^{50} X_i \geq 10\right) = P\left(\sum_{i=1}^{50}\frac{X_i}{50} \geq 0.2\right) =P\left(\overline{X} \geq \hat{x}\right)

\begin{align*} %&P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)\approx P\left(Z \geq 2.35 \right) \approx 0.01 &P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)=P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{0.2- 0.1}{\sqrt{0.09\diagup 50}}\right)%\approx P\left(Z \geq 2.35 \right) \approx 0.01 \end{align*}

\hat{x} =\sum_{i=1}^{50} \frac{X_i}{50} = 0.2

Ou seja, podemos calcular a probabilidade da média amostral ser maior que

(a média amostral observada).

Agora, usamos o TCL:

(aprox.) Normal com média 0 e variância 1

Exemplo de uso do teorema central do Limite

Note que a pergunta que foi feita é equivalente à seguinte:

P\left(\sum_{i=1}^{50} X_i \geq 10\right) = P\left(\sum_{i=1}^{50}\frac{X_i}{50} \geq 0.2\right) =P\left(\overline{X} \geq \hat{x}\right)

P\left(\overline{X} \geq \hat{x}\right) = P\left( \frac{\overline{X}- \mu}{\sigma\diagup\sqrt{n}} \geq \frac{\hat{x}- \mu}{\sigma\diagup\sqrt{n}}\right)\approx P\left(Z \geq 2.35 \right) \approx 0.01

\hat{x} =\sum_{i=1}^{50} \frac{X_i}{50} = 0.2

Ou seja, podemos calcular a probabilidade da média amostral ser maior que

(a média amostral observada).

Agora, usamos o TCL:

(aprox.) Normal com média 0 e variância 1

Recomendações

Quem é

Rafael Monteiro é formado em Matemática Aplicada pela USP, SP.

Passou alguns anos morando no RJ para fazer um mestrado em modelagem matemática e computacional no IMPA, de onde seguiu para um PhD na Indiana University, nos EUA.

Seguiu na área acadêmica por alguns anos, até chegar no mundo industrial, onde trabalha com data science & data analytics, além de atuar como consultor.

Você pode encontrá-lo no linkedin.

Fundamentos estatísticos - parte 2

By Rafael Monteiro

Fundamentos estatísticos - parte 2

Thanks to the new Math block it is now possible to display math formulas directly inside of your presentations.

Rafael monteiro

Fundamentos estatísticos

Desafio

Como fazer essa pesquisa?

Estatística!

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Por que o design de um experimento importa?

Moral da estória

Nenhuma amostra grande melhora um experimento enviesado.

NEste caso, quanto maior a amostra, mais o erro inicial se amplifica, em uma escala cada vez maior.

Voltando ao nosso Desafio

Terminologia básica

População

conjunto de dados que contém uma característica ou qualidade que queremos estudar. (Ex.: todos os eleitores de uma eleição presidencial).

População

conjunto de dados que contém uma característica ou qualidade que queremos estudar. (Ex.: todos os eleitores de uma eleição presidencial).

Amostra

subconjunto de uma população

Amostra

subconjunto de uma população

AmostraGEM

PROCESSO de seleção de uma amostra

Amostra

subconjunto de uma população

AmostraGEM

PROCESSO de seleção de uma amostra

Diferentes tipos de amostragem

Amostragem aleatória simples

Amostragem aleatória simples

Média

Média

Média

Média

Média - definição

Média - Visualização

Média - Peculiaridades

Média - peculiaridades

Mediana - definição

Mediana - número ímpar de dados

Mediana - NÚMERO PAR DE DADOS

MEDIANA - Visualização

outra medida de tendência central que pode ser usada é a moda

Moda:

exemplo utilização da moda

Quando usar a média e quando usar a mediana?

Média

Média

Mediana

Quantificando a dispersão dos dados

variância e desvio padrão

variância e desvio padrão

VARIÂNCIA E DESVIO PADRÃO

Intervalos interquartis

Intervalos interquartis

Intervalos interquartis

OUTLIERS E BOXPLOT

outliers e boxplot

O que Fazer Quando outliers são

"um problema"?

exemplos extras e recomendações

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Sou um estagiário?

SOU UM CEO?

SE LEVARMOS EM CONTA SOMENTE A REMUNERAÇÃO, COMO USAR A VARIÂNCIA DE SALÁRIO (SE ALTA OU BAIXA) PARA DECIDIR EM QUAL DELAS É MELHOR TRABALHAR SE:

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Sou um estagiário?

SOU UM CEO?

SE LEVARMOS EM CONTA SOMENTE A REMUNERAÇÃO, COMO USAR A VARIÂNCIA DE SALÁRIO (SE ALTA OU BAIXA) PARA DECIDIR EM QUAL DELAS É MELHOR TRABALHAR SE:

Recebi ofertas de emprego de duas empresas com mesma média salarial!

Sou um estagiário?

SOU UM CEO?

SE LEVARMOS EM CONTA SOMENTE A REMUNERAÇÃO, COMO USAR A VARIÂNCIA DE SALÁRIO (SE ALTA OU BAIXA) PARA DECIDIR EM QUAL DELAS É MELHOR TRABALHAR SE:

qual a diferença entre os alvos de cima e os de baixo?