Que belo dia para a ciência :)
Letícia Portella
leleportella
leportella
@leportella
leportella.com
”Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.” Clive Humbly
Porque "ciência"?
O que a ciência de dados engloba?
Relatórios
Análises Exploratórias
Aprendizado de Máquina
Inteligência Artificial
Big Data
Deep Learning
Processamento Natural de Linguagem
Modelagens preditivas
Análises Estatísticas
Data Science vs Big Data
Data Science looks to create models that capture the underlying patterns of complex systems, and codify those models into working applications.
Big Data looks to collect and manage large amounts of varied data to serve large scale web applications and vast sensor networks.
O que a ciência de dados não é?
Text
Preciso entender de matemática?
Habilidades necessárias?
CAPACIDADE DE IDENTIFICAR E RESOLVER PROBLEMAS!
Data Processing
- Seus dados contém mesma quantidade de colunas?
- Você tem informações sobre todas as colunas do dado?
- Seus dados contém NaN (existem dados faltantes?)
- Seus dados tem variáveis categóricas?
- Você consegue ler seu dado todo na memória?
- Todas as informações necessárias estão disponíveis para você?
- As informações estão armazenadas da forma como elas devem ser? (Datas em datetime e números como inteiros)
Capacidade de comunicar resultados
Porque Python?
Grande comunidade
Jupyter Notebook
É fácil de aprender
Escalável
Muitas bibliotecas de visualização
Multi-propósito
O que preciso aprender?
Show me the code!
Caso: Detecção de Câncer de Mama
Você é cientista num Hospital
Registro de 569 pacientes
Informações sobre o tamanho do tumor, raio, textura, perímetro, área, simetria...
Informação se era benigno ou maligno
Caso: Detecção de Câncer de Mama
HIPÓTESE:
Eu consigo prever novos casos baseados nos informações sobre o cisto?
Olhando os dados
Variáveis Independentes (X)
Y
X
y
X_test
X_train
y_test
y_train
Modelo
y_pred
X_test
y_pred
Como funciona um processo de modelagem?
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer as array_set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import train_test_split
data = array_set()
X = pd.DataFrame(data.data, columns=data.feature_names,
dtype=np.float)
y = pd.DataFrame(data.target, columns=['y'], dtype=bool)
X_train, X_test, y_train, y_test = train_test_split(X,
y,
test_size=0.3,
random_state=42)
X
y
X_test
X_train
y_test
y_train
Model = LogisticRegression()
Model.fit(X_train, y_train)
X_train
y_train
Modelo
y_pred = Model.predict(X_test)
Modelo
y_pred
X_test
score = classification_report(y_test, y_pred)
X_test
y_test
Modelo
y_pred
X_test
y_pred
E agora?
Ciclo de Vida de um Projeto
Nem sempre mais é melhor...
Falta de previsibilidade
Incerteza na alocação de recursos
Estratégias emergenciais
PIB
Selic
Desemprego
Inflação
Confiança na justiça
Produtividade do tribunal
Quantidade de advogados
Crescimento vegetativo
Otimização na alocação de recursos
Planejamento orçamentário
Estratégias preventivas
Onde aprender?
Onde aprender?
Leticia
Portella
leleportella
leportella
@leportella
leportella.com
ciencia-de-dados
By Leticia Portella
ciencia-de-dados
Palestra apresentada como Keynote da Python Sul em Setembro de 2017
- 1,503