Raíra Marotta
Web Intelligence e Analítica de Dados - WIDA
Aula 4 - Inferência
Inferência: fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra
Intervalo de confiança: identifica o erro cometido ao usar uma amostra para estimar um parâmetro da população.
Fonte: Pesquisa IBOPE.
Cuidado ao interpretar um intervalo de confiança!!!
IC com nível de confiança de 95% significa que se repetirmos a pesquisa 100 vezes, em 95 delas, o IC conterá o verdadeiro valor do parâmetro populacional.
Correlação espúria: existência de relação estatística entre duas ou mais variáveis, mas sem significado teórico.
correlação = 99,3%
Aprendizado de Máquina
Supervisionado
Não supervisionado
No aprendizado supervisionado o modelo aprende com resultados já rotulados.
1. Suponha que estejamos interessados em saber o valor de um apartamento de 50 metros quadrados em Copacabana. Podemos pegar uma amostra de apartamentos no mesmo bairro e com características similares para inferir sobre o preço do apartamento em que estamos interessados.
2. Suponha agora que desejamos saber se o cliente pagará ou não o débito dado que sabemos sua renda, sua média de gastos no mês e outras características. Podemos pegar uma amostra de pessoas com perfis semelhantes e inferir sobre a probabilidade desse cliente quitar o débito.
No aprendizado supervisionado o modelo aprende com resultados já rotulados.
Neste caso, aprendemos com a experiência
Classificação
Regressão
Classificação
a
Fonte imagem: https://www.guru99.com/supervised-vs-unsupervised-learning.html
Modelo de regressão linear
Simples
(1 regressora)
Múltiplo
(2 ou + regressoras)
-
-
-
-
https://datatab.net/statistics-calculator/regression
Exemplos:
A ideia é reunir os eventos em grupos similares entre si para que consigamos aprender sobre as características desses respectivos grupos. Note inclusive que os agrupamentos podem ser binários ou envolver múltiplas classes.
Modelo para classificar variáveis binárias
Regressão Logística
Não podemos usar regressão linear nesse caso, pois o modelo de regressão linear pode nos dar qualquer resultado entre - infinito e + infinito. Nesse caso, estamos interessados em saber se a variável assumirá valor 0 ou valor 1.
Fonte imagem: Google Images
Como podemos fazer?
Regressão Logística - Curiosidade
Vamos olhar para a probabilidade!
Note que
Isso nada mais é do que a Razão de Chances - probabilidade de sucesso sobre a probabilidade de fracasso!
Regressão Logística - Curiosidade
Preditor | p-valor | RC |
---|---|---|
Genero Feminino (1) | 0,01 | 2 |
Nota matemática | 0,03 | 1.5 |
Exemplo: Suponha desejamos avaliar o evento ser Aprovado (1) ou ser Reprovado (0). Queremos saber se o gênero afeta na aprovação desse aluno e também se a nota de matemática importa.
Como podemos interpretar?
K- vizinhos mais próximos
Fonte imagem: Google Images
K- vizinhos mais próximos
Fonte imagem: Google Images
Serve tanto para Regressão quanto para Classificação!
Fonte imagem: Google Images
Árvore de Regressão:
Fonte imagem: Google Images
Árvore de Classificação:
Fonte imagem: Google Images
1. Classificar 1000 textos em categorias;
2. Analisar uma determinada música e separar a voz do cantor dos instrumentos que foram tocados;
3. Analisar padrões nos comportamentos dos clientes para fazermos recomendações.
No aprendizado não supervisionado o modelo atua de forma independente e tenta identificar padrões nos dados.
K-Means
PCA
shorturl.at/zKMNR
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
Que cuidados devemos ter?
Nossa decisão depende apenas do resultado do modelo?
Será que nossa experiência não deve ser considerada?
Fonte: Agência Nacional de Energia Elétrica - ANEEL.
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
1. Resultado da previsão a partir do modelo estatístico adequado
2. Resultado da previsão a partir do modelo estatístico adequado comparado ao dado realizado
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro
Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.
Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro
Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.
Dashboard para análise de vendas
a
Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro
a
Fonte Imagem: shorturl.at/ezEGS
Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro
a
Fonte Imagem: shorturl.at/ezEGS
Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro
a
Fonte Imagem: shorturl.at/ezEGS