Herramientas Fundamentales para todo Data Scientist
Favio Vázquez
Cosmólogo y Data Scientist
@faviovaz
Escuela Politécnica Nacional
02/03/18
¿Quién soy?
- Venezolano
- Licenciado en Física e Ingeniero en Computación
- Maestría en el PCF-UNAM (Cosmología)
- Data Scientist (Auto-Proclamado)
- Data Scientist @ BBVA Data & Analytics
- Chief Data Scientist @ Iron
- Profesor Afi Escuela y Escuela Bolsa Mexicana
- Editor Instituto Internacional de Ciencia de Datos
¿Quién soy?
- Venezolano
- Muy activo en LinkedIn ;)
- Editor International Journal of Business Analytics and Intelligence
- Colaborador del Proyecto de Apache Spark y Optimus en GitHub y StackOverFlow
- Escritor en Towards Data Science, Becoming Human y Planeta Chatbot
Ciencia de
Datos
La Ciencia de Datos es la resolución a problemas de Negocio/Organizaciones a través de las matemáticas, la programación y el método científico que implica la creación de hipótesis, experimentos y pruebas mediante el análisis de datos y la generación de modelos predictivos. Se encarga de transformar estos problemas en preguntas bien planteadas que también puedan responder a la hipótesis inicial de una manera creativa. También debe incluir la comunicación efectiva de los resultados obtenidos y cómo la solución agrega valor al Negocio/Organización.
Ciencia de
Datos
La Ciencia de Datos, está muy ligada al negocio, pero es una ciencia al final.
O en camino a serlo.
O tal vez no.
Esperemos que si.
Ciencia de
Datos
Esto quiere decir que todo proyecto de ciencia de datos debe ser:
- Reproducible.
- Falible.
- Colaborativo.
- Creativo.
- Conforme a regulaciones.
Ciencia de
Datos
¿Quién es un Científico de Datos?
Un Data Scientist es una persona encargada de analizar problemas de negocio/organizaciones y darle una solución estructurada partiendo por convertir este problema en una pregunta válida (qué, cómo, por qué, para qué, etc) y completa, luego mediante herramientas de programación y cómputo desarrollar códigos que limpien preparen y analicen los datos a trabajar para luego crear modelos y responder a la pregunta inicial.
Ciencia de
Datos
¿Qué debe saber un Científico de Datos?
Ciencia de
Datos
Lenguajes de Programación para CD
Resultados
¿Qué es Python?
Python es un lenguaje de programación interpretado, orientado a objetos y de alto nivel con semántica dinámica.
¿Qué es R?
R es un lenguaje y entorno para computación y gráficos estadísticos. Es un proyecto de GNU que es similar al lenguaje y entorno S que se desarrolló en Bell Laboratories.
¿Por qué Python y R?
Para Web
Para la Ciencia
Para la nube
Para analizar datos
Para analizar datos
¿Qué es?
Es un motor general y muy rápido para el procesamiento en paralelo de datos en gran escala.
Motor Unificado
APIs de alto nivel con espacio para optimizar
- Expresa todo el workflow con una API
- Conecta librerías existentes y sistemas de almacenamiento
OSEMN
OSEMN Pipeline
1. Obtaining the data is the first approach in solving the problem.
Ciencia de
Datos
OSEMN Pipeline
2. Scrubbing or cleaning the data is the next step. This includes data imputation of missing or invalid data and fixing column names.
Ciencia de
Datos
OSEMN Pipeline
3. Exploring the data will follow right after and allow further insight of what our dataset contains. Looking for any outliers or weird data.
Ciencia de
Datos
OSEMN Pipeline
4. Modeling the data will give us our predictive power.
Ciencia de
Datos
OSEMN Pipeline
5. INterpreting the data and model is last. With all the results and analysis of the data, what conclusion is made?
Ciencia de
Datos
¿Preguntas?
Favio Vázquez
Cosmólogo y Data Scientist
@faviovaz
Herramientas DS - ESL Ecuador
By Favio Vazquez
Herramientas DS - ESL Ecuador
Charla a dictar para la apertura de la Escuela de Software Libre de la Escuela Politécnica Nacional de Ecuador. Quito 02/03/18
- 1,181