QUE BELO DIA
PARA A CIÊNCIA
Letícia
Portella
leportella.com
leportella
leleportella
”Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.”
Clive Humbly
In God we trust,
all others must bring data
Porque "ciência"?
O que a ciência de dados engloba?
Relatórios
Análises Exploratórias
Aprendizado de Máquina
Inteligência Artificial
Big Data
Deep Learning
Processamento Natural de Linguagem
Modelagens preditivas
Análises Estatísticas
Data Science vs Big Data
Data Science looks to create models that capture the underlying patterns of complex systems, and codify those models into working applications.
Big Data looks to collect and manage large amounts of varied data to serve large scale web applications and vast sensor networks.
O que a ciência de dados não é?
Preciso entender de matemática?
Habilidades necessárias?
Por onde começar?
Capacidade de identificar e resolver problemas!
Capacidade de comunicar resultados
Porque Python?
Grande comunidade
Jupyter Notebook
É fácil de aprender
Escalável
Muitas bibliotecas de visualização
Multi-propósito
O que preciso aprender?
Caso: Detecção de Câncer de Mama
Você é cientista num Hospital
Registro de 569 pacientes
Informações sobre o tamanho do tumor, raio, textura, perímetro, área, simetria...
Informação se era benigno ou maligno
Caso: Detecção de Câncer de Mama
HIPÓTESE:
Eu consigo prever novos casos baseados nos informações sobre o cisto?
Olhando os dados
Variáveis Independentes (X)
Y
X
y
X_test
X_train
y_test
y_train
Modelo
y_pred
X_test
y_pred
Como funciona um processo de modelagem?
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer as array_set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import train_test_split
data = array_set()
X = pd.DataFrame(data.data, columns=data.feature_names,
dtype=np.float)
y = pd.DataFrame(data.target, columns=['y'], dtype=bool)
X_train, X_test, y_train, y_test = train_test_split(X,
y,
test_size=0.3,
random_state=42)
X
y
X_test
X_train
y_test
y_train
Model = LogisticRegression()
Model.fit(X_train, y_train)
X_train
y_train
Modelo
y_pred = Model.predict(X_test)
Modelo
y_pred
X_test
score = classification_report(y_test, y_pred)
X_test
y_test
Modelo
y_pred
X_test
y_pred
Ciclo de Vida de um Projeto
Nem sempre mais é melhor...
Onde aprender?
http://datascience.pizza
www.pizzadedados.com
Ensino de ciência de dados
Estudos e outras coisinhas mais...
Serenata de Amor
Da oceanografia ao conda-forge
Crawlers e scrapers
Chatbots
Ética, leis e segurança de dados
Data Storytelling
Leticia
Portella
leleportella
leportella
leportella.com
Que belo dia para a ciência - 3 anos de Python Floripa
By Leticia Portella
Que belo dia para a ciência - 3 anos de Python Floripa
Palestra apresentada como Keynote da Python Sul em Setembro de 2017
- 1,894