QUE BELO DIA

PARA A CIÊNCIA

Letícia

Portella

leportella.com

 

leportella

 

leleportella

”Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.”

 

Clive Humbly

In God we trust,

all others must bring data

Porque "ciência"?

O que a ciência de dados engloba?

Relatórios

Análises Exploratórias

Aprendizado de Máquina

Inteligência Artificial

Big Data

Deep Learning

Processamento Natural de Linguagem

Modelagens preditivas

Análises Estatísticas

 

Data Science   vs     Big Data

Data Science looks to create models that capture the underlying patterns of complex systems, and codify those models into working applications.

Big Data looks to collect and manage large amounts of varied data to serve large scale web applications and vast sensor networks.  

O que a ciência de dados não é?

Preciso entender de matemática?

Habilidades necessárias?

Por onde começar?

Capacidade de identificar e resolver problemas!

Capacidade de comunicar resultados

Porque Python?

Grande comunidade

Jupyter Notebook

É fácil de aprender

Escalável

Muitas bibliotecas de visualização

Multi-propósito

O que preciso aprender?

Caso: Detecção de Câncer de Mama

Você é cientista num Hospital

Registro de 569 pacientes

Informações sobre o tamanho do tumor, raio, textura, perímetro, área, simetria...

Informação se era benigno ou maligno

Caso: Detecção de Câncer de Mama

 HIPÓTESE:
Eu consigo prever novos casos baseados nos informações sobre o cisto?

Olhando os dados

Variáveis Independentes (X)

Y

X

y

X_test

X_train

y_test

y_train

Modelo

y_pred

X_test

y_pred

Como funciona um processo de modelagem?

import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer as array_set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import train_test_split
data = array_set()
X = pd.DataFrame(data.data, columns=data.feature_names, 
                    dtype=np.float)
y = pd.DataFrame(data.target, columns=['y'], dtype=bool)
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=42)

X

y

X_test

X_train

y_test

y_train

Model = LogisticRegression()
Model.fit(X_train, y_train)

X_train

y_train

Modelo

y_pred = Model.predict(X_test)

Modelo

y_pred

X_test

score = classification_report(y_test, y_pred)

X_test

y_test

Modelo

y_pred

X_test

y_pred

Ciclo de Vida de um Projeto

Nem sempre mais é melhor...

Onde aprender?

http://datascience.pizza

www.pizzadedados.com

Ensino de ciência de dados

Estudos e outras coisinhas mais...

Serenata de Amor

Da oceanografia ao conda-forge

Crawlers e scrapers

Chatbots

Ética, leis e segurança de dados

Data Storytelling

Leticia

Portella

leleportella

 

leportella

 

leportella.com

Que belo dia para a ciência - 3 anos de Python Floripa

By Leticia Portella

Que belo dia para a ciência - 3 anos de Python Floripa

Palestra apresentada como Keynote da Python Sul em Setembro de 2017

  • 1,748