Que belo dia para a ciência :)

Letícia Portella

leleportella

leportella

@leportella

leportella.com

”Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.” Clive Humbly

Porque "ciência"?

 

O que a ciência de dados engloba?

Relatórios

Análises Exploratórias

Aprendizado de Máquina

Inteligência Artificial

Big Data

Deep Learning

Processamento Natural de Linguagem

Modelagens preditivas

Análises Estatísticas

 

Data Science vs Big Data

Data Science looks to create models that capture the underlying patterns of complex systems, and codify those models into working applications.

Big Data looks to collect and manage large amounts of varied data to serve large scale web applications and vast sensor networks.  

O que a ciência de dados não é?

Text

Preciso entender de matemática?

Habilidades necessárias?

CAPACIDADE DE IDENTIFICAR E RESOLVER PROBLEMAS!

Data Processing

  • Seus dados contém mesma quantidade de colunas?
  • Você tem informações sobre todas as colunas do dado?
  • Seus dados contém NaN (existem dados faltantes?)
  • Seus dados tem variáveis categóricas?
  • Você consegue ler seu dado todo na memória?
  • Todas as informações necessárias estão disponíveis para você?
  • As informações estão armazenadas da forma como elas devem ser? (Datas em datetime e números como inteiros)

Capacidade de comunicar resultados

Porque Python?

Grande comunidade

Jupyter Notebook

É fácil de aprender

Escalável

Muitas bibliotecas de visualização

Multi-propósito

O que preciso aprender?

Show me the code!

Caso: Detecção de Câncer de Mama

Você é cientista num Hospital

Registro de 569 pacientes

Informações sobre o tamanho do tumor, raio, textura, perímetro, área, simetria...

Informação se era benigno ou maligno

Caso: Detecção de Câncer de Mama

 HIPÓTESE:
Eu consigo prever novos casos baseados nos informações sobre o cisto?

Olhando os dados

Variáveis Independentes (X)

Y

X

y

X_test

X_train

y_test

y_train

Modelo

y_pred

X_test

y_pred

Como funciona um processo de modelagem?

import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer as array_set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import train_test_split
data = array_set()
X = pd.DataFrame(data.data, columns=data.feature_names, 
                    dtype=np.float)
y = pd.DataFrame(data.target, columns=['y'], dtype=bool)
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=42)

X

y

X_test

X_train

y_test

y_train

Model = LogisticRegression()
Model.fit(X_train, y_train)

X_train

y_train

Modelo

y_pred = Model.predict(X_test)

Modelo

y_pred

X_test

score = classification_report(y_test, y_pred)

X_test

y_test

Modelo

y_pred

X_test

y_pred

E agora?

Ciclo de Vida de um Projeto

Nem sempre mais é melhor...

Falta de previsibilidade

Incerteza na alocação de recursos

Estratégias emergenciais

PIB

Selic

Desemprego

Inflação

Confiança na justiça

Produtividade do tribunal

Quantidade de advogados

Crescimento vegetativo

Otimização na alocação de recursos

Planejamento orçamentário

Estratégias preventivas

Onde aprender?

Onde aprender?

Leticia

Portella

leleportella

leportella

@leportella

leportella.com

ciencia-de-dados

By Leticia Portella

ciencia-de-dados

Palestra apresentada como Keynote da Python Sul em Setembro de 2017

  • 1,503