CIÊNCIA DE DADOS
Letícia
Portella
leportella.com
leportella
leleportella
”Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.”
Clive Humbly
In God we trust,
all others must bring data
W. Edwards Deming
Ciência de Dados
Ciência de dados tenta entender padrões de sistemas complexos e codificá-los em aplicações úteis
Alguma semelhança?
O que a ciência de dados engloba?
Relatórios
Análises Exploratórias
Aprendizado de Máquina
Inteligência Artificial
Big Data
Deep Learning
Processamento Natural de Linguagem
Modelagens preditivas
Análises Estatísticas
E como eu fui cair nessa?
2009
2012
2014
2015
2016
LOC
IEAPM
PPGOceano
1a Python Floripa
Programadora <3
2017
Pizza de Dados
2015
PyBr, SciPyLA, Pyladies
Oceanografia
+
Programação
Você vive ciências de dados!
Por onde eu começo?
Comece fazendo perguntas
Capacidade de identificar e resolver problemas!
Capacidade de comunicar resultados
Programação
Grande comunidade
Jupyter Notebook
É fácil de aprender
Escalável
Muitas bibliotecas de visualização
Multi-propósito
pretty awesome!
O que preciso aprender?
Caso: Detecção de Câncer de Mama
Você é cientista num Hospital
Registro de 569 pacientes
Informações sobre o tamanho do tumor, raio, textura, perímetro, área, simetria...
Informação se era benigno ou maligno
Caso: Detecção de Câncer de Mama
HIPÓTESE:
Eu consigo prever novos casos baseados nos informações sobre o cisto?
Olhando os dados
Variáveis Independentes (X)
Y
X
y
X_test
X_train
y_test
y_train
Modelo
y_pred
X_test
y_pred
Como funciona um processo de modelagem?
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer as array_set
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.model_selection import train_test_split
data = array_set()
X = pd.DataFrame(data.data, columns=data.feature_names,
dtype=np.float)
y = pd.DataFrame(data.target, columns=['y'], dtype=bool)
X_train, X_test, y_train, y_test = train_test_split(X,
y,
test_size=0.3,
random_state=42)
X
y
X_test
X_train
y_test
y_train
Model = LogisticRegression()
Model.fit(X_train, y_train)
X_train
y_train
Modelo
y_pred = Model.predict(X_test)
Modelo
y_pred
X_test
score = classification_report(y_test, y_pred)
X_test
y_test
Modelo
y_pred
X_test
y_pred
Mão na massa!
http://datascience.pizza
www.pizzadedados.com
Ensino de ciência de dados
Estudos e outras coisinhas mais...
Serenata de Amor
Da oceanografia ao conda-forge
Crawlers e scrapers
Chatbots
Ética, leis e segurança de dados
Data Storytelling
Coisas que eu nem imaginava
Escrever sobre o que aprende
Palestrar sobre o que se aprende
Rede de compartilhamento
Qualidade de código
Comunidade Open-Source
Telegram + Twitter
Minhas Dicas :)
Não canse de estudar
Participe de encontros (meetups)
Não tenha medo de arriscar
Sua trajetória é valiosa. Use-a!
Leticia
Portella
leleportella
leportella
leportella.com
Ciência de Dados - Oceanografia UFSC
By Leticia Portella
Ciência de Dados - Oceanografia UFSC
Palestra apresentada na comemoração dos 10 anos do curso de Oceanografia da UFSC
- 1,585