CIÊNCIA DE DADOS

 

Letícia

Portella

leportella.com

 

leportella

 

leleportella

”Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.”

 

Clive Humbly

In God we trust,

all others must bring data

W. Edwards Deming

Ciência de Dados

Ciência de dados tenta entender padrões de sistemas complexos e codificá-los em aplicações úteis

Alguma semelhança?

O que a ciência de dados engloba?

Relatórios

Análises Exploratórias

Aprendizado de Máquina

Inteligência Artificial

Big Data

Deep Learning

Processamento Natural de Linguagem

Modelagens preditivas

Análises Estatísticas

 

E como eu fui cair nessa?

2009

2012

2014

2015

2016

LOC

IEAPM

PPGOceano

1a Python Floripa

Programadora <3

2017

Pizza de Dados

2015

PyBr, SciPyLA, Pyladies

Oceanografia

+

Programação

Você vive ciências de dados!

Por onde eu começo?

Comece fazendo perguntas

Capacidade de identificar e resolver problemas!

Capacidade de comunicar resultados

Programação

Grande comunidade

Jupyter Notebook

É fácil de aprender

Escalável

Muitas bibliotecas de visualização

Multi-propósito

pretty awesome!

O que preciso aprender?

Caso: Detecção de Câncer de Mama

Você é cientista num Hospital

Registro de 569 pacientes

Informações sobre o tamanho do tumor, raio, textura, perímetro, área, simetria...

Informação se era benigno ou maligno

Caso: Detecção de Câncer de Mama

 HIPÓTESE:
Eu consigo prever novos casos baseados nos informações sobre o cisto?

Olhando os dados

Variáveis Independentes (X)

Y

X

y

X_test

X_train

y_test

y_train

Modelo

y_pred

X_test

y_pred

Como funciona um processo de modelagem?

import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer as array_set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import train_test_split
data = array_set()
X = pd.DataFrame(data.data, columns=data.feature_names, 
                    dtype=np.float)
y = pd.DataFrame(data.target, columns=['y'], dtype=bool)
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=42)

X

y

X_test

X_train

y_test

y_train

Model = LogisticRegression()
Model.fit(X_train, y_train)

X_train

y_train

Modelo

y_pred = Model.predict(X_test)

Modelo

y_pred

X_test

score = classification_report(y_test, y_pred)

X_test

y_test

Modelo

y_pred

X_test

y_pred

Mão na massa!

http://datascience.pizza

www.pizzadedados.com

Ensino de ciência de dados

Estudos e outras coisinhas mais...

Serenata de Amor

Da oceanografia ao conda-forge

Crawlers e scrapers

Chatbots

Ética, leis e segurança de dados

Data Storytelling

Coisas que eu nem imaginava

Escrever sobre o que aprende

Palestrar sobre o que se aprende

Rede de compartilhamento

Qualidade de código

Comunidade Open-Source

Telegram + Twitter

Minhas  Dicas :)

Não canse de estudar

Participe de encontros (meetups)

Não tenha medo de arriscar

Sua trajetória é valiosa. Use-a!

Leticia

Portella

leleportella

 

leportella

 

leportella.com

Ciência de Dados - Oceanografia UFSC

By Leticia Portella

Ciência de Dados - Oceanografia UFSC

Palestra apresentada na comemoração dos 10 anos do curso de Oceanografia da UFSC

  • 1,585