Herramientas Fundamentales para todo Data Scientist

Favio Vázquez

Cosmólogo y Data Scientist

@faviovaz

Escuela Politécnica Nacional

02/03/18

¿Quién soy?

  • Venezolano
  • Licenciado en Física e Ingeniero en Computación
  • Maestría en el PCF-UNAM (Cosmología)
  • Data Scientist (Auto-Proclamado)
  • Data Scientist @ BBVA Data & Analytics
  • Chief Data Scientist @ Iron
  • Profesor Afi Escuela y Escuela Bolsa Mexicana
  • Editor Instituto Internacional de Ciencia de Datos

¿Quién soy?

  • Venezolano
  • Muy activo en LinkedIn ;)
  • Editor International Journal of Business Analytics and Intelligence
  • Colaborador del Proyecto de Apache Spark y Optimus en GitHub y StackOverFlow
  • Escritor en Towards Data Science, Becoming Human y Planeta Chatbot

Ciencia de

Datos

La Ciencia de Datos es la resolución a problemas de Negocio/Organizaciones a través de las matemáticas, la programación y el método científico que implica la creación de hipótesis, experimentos y pruebas mediante el análisis de datos y la generación de modelos predictivos. Se encarga de transformar estos problemas en preguntas bien planteadas que también puedan responder a la hipótesis inicial de una manera creativa. También debe incluir la comunicación efectiva de los resultados obtenidos y cómo la solución agrega valor al Negocio/Organización.

Ciencia de

Datos

La Ciencia de Datos, está muy ligada al negocio, pero es una ciencia al final.

O en camino a serlo.

O tal vez no.

Esperemos que si.

Ciencia de

Datos

Esto quiere decir que todo proyecto de ciencia de datos debe ser:

 

- Reproducible.

- Falible.

- Colaborativo.
- Creativo.
- Conforme a regulaciones.

Ciencia de

Datos

¿Quién es un Científico de Datos?

 

Un Data Scientist es una persona encargada de analizar problemas de negocio/organizaciones y darle una solución estructurada partiendo por convertir este problema en una pregunta válida (qué, cómo, por qué, para qué, etc) y completa, luego mediante herramientas de programación y cómputo desarrollar códigos que limpien preparen y analicen los datos a trabajar para luego crear modelos y responder a la pregunta inicial.

Ciencia de

Datos

¿Qué debe saber un Científico de Datos?

Ciencia de

Datos

Lenguajes de Programación para CD

Resultados

¿Qué es Python?

Python es un lenguaje de programación interpretado, orientado a objetos y de alto nivel con semántica dinámica.

¿Qué es R?

R es un lenguaje y entorno para computación y gráficos estadísticos. Es un proyecto de GNU que es similar al lenguaje y entorno S que se desarrolló en Bell Laboratories.

¿Por qué Python y R?

Para Web

Para la Ciencia

Para la nube

Para analizar datos

Para analizar datos

¿Qué es?

Es un motor general y muy rápido para el procesamiento en paralelo de datos en gran escala.

Motor Unificado

APIs de alto nivel con espacio para optimizar 

  • Expresa todo el workflow con una API
  • Conecta librerías existentes y sistemas de almacenamiento

OSEMN

OSEMN Pipeline

1. Obtaining the data is the first approach in solving the problem.

Ciencia de

Datos

OSEMN Pipeline

2. Scrubbing or cleaning the data is the next step. This includes data imputation of missing or invalid data and fixing column names.

Ciencia de

Datos

OSEMN Pipeline

3. Exploring the data will follow right after and allow further insight of what our dataset contains. Looking for any outliers or weird data.

Ciencia de

Datos

OSEMN Pipeline

4. Modeling the data will give us our predictive power.

Ciencia de

Datos

OSEMN Pipeline

5. INterpreting the data and model is last. With all the results and analysis of the data, what conclusion is made?

Ciencia de

Datos

¿Preguntas?

Favio Vázquez

Cosmólogo y Data Scientist

@faviovaz

Herramientas DS - ESL Ecuador

By Favio Vazquez

Herramientas DS - ESL Ecuador

Charla a dictar para la apertura de la Escuela de Software Libre de la Escuela Politécnica Nacional de Ecuador. Quito 02/03/18

  • 1,181