El rol del Big Data y Data Scientist en la Cosmología

Favio Vázquez

Cosmólogo y Data Scientist

@faviovaz

5 de mayo de 2017

Seguir presentación en vivo

¿Quién soy?

  • Venezolano
  • Licenciado en Física e Ingeniero en Computación
  • Estudiante de Maestría en el PCF-UNAM
  • Data Scientist
  • Colaborador del Proyecto de Apache Spark en GitHub

Releases 1.3.0, 1.4.0, 1.4.1 y 1.5.0

Resumen

¿Qué es el Big Data?

Actuales tendencias en Big Data

¿Quién es un Data Scientist?

¿Cuál es el papel del BD y el DS en la cosmología?

Apache Spark

Databricks

CosmoSIS

Demo (Spark + Databricks)

Big Data

¿Qué es?

Son los diversos tipos de procesos y estrategias de recolección, guardado y análisis que incluyen e integran distintos tipos de datos que no podrían ser estudiados con técnicas tradicionales de minería de datos.

Big Data

¿De dónde vienen estos datos?

Big Data

Primera Generación

Supercomputadoras

DATOS

ANALÍTICA

PERSONAS (DS)

Big Data

Segunda Generación

Data Warehouse

DATOS

ANALÍTICA

PERSONAS (DS)

Datos Estructurados

Analítica descriptiva

Enfocado en BI

Big Data

Tercera Generación

Hadoop + Data Lake

DATOS

ANALÍTICA

PERSONAS (DS)

Complicado centralizar datos

Herramientas muy complejas

Desarrolladores expertos en Big Data

Datos con poco valor sin ETL

Big Data

Nuevo Paradigma

 

Data Scientist

¿Quién es?

El encargado de saber todo lo necesario para poder utilizar las herramientas, lenguajes, plataformas y sistemas usados para analizar Big Data

Data Scientist

¿Qué debe saber?

¿Qué es complicado en Big Data?

La combinación compleja de hilos de ejecución, sistemas de almacenamiento  y modos de trabajo.

  • ETL, agregaciones, machine learning, streaming, etc.

Muy complicado obtener productividad y performance

¿Qué es?

Es un motor general y muy rápido para el procesamiento en paralelo de datos en gran escala.

Motor Unificado

APIs de alto nivel con espacio para optimizar 

  • Expresa todo el workflow con una API
  • Conecta librerías existentes y sistemas de almacenamiento

RDD

Transformaciones

Acciones

Caché

Dataset

Tipado

Scala y Java

Beneficios de RDD

Dataframe

Dataset[Row]

Optimizado

Versátil

Rol en Cosmología

¿En qué etapa del Big Data está la cosmología?

Primera :(

PERO ...

Rol en Cosmología

El futuro es brillante

Cosmología Open Source

Proyectos DS + Cosmología

Técnicas BD + Cosmología

Nuevos Lenguajes y Herramientas

Data Scientists interesados en Cosmología

Retos en cosmología de precisión​

Muchos observables, correlacionados algunos:

CMB, lensing, clusters de galaxias, supernovas

​​​Diferentes modelos teóricos:

Ajustes de curvas de supernovas, modelos de bias para galaxias

Diferentes parámetros y sistemática en cada modelo:

¿Cómo samplear sobre cada uno de ellos?

Posteriors y Likelihoods complicados, a veces multimodales:

La forma de samplear puede impactar en los resultados

Retos en cosmología de precisión​

 

¿Cómo rastrear contribuciones, asegurar reproducibilidad y consistencia?
¿Cómo usar la cantidad de códigos existentes, así como datos, sin pasarnos años intentando descifrarlos (a veces toda una maestría o doctorado)?
¿Cómo saber qué tipo de código usar, y qué lenguaje de programación aprender para poder realizar una investigación?

Grandes colaboraciones, de cientos de personas (DES, DESI, PLANCK, etc.):

CosmoSIS fue diseñado para intentar solucionar cada uno de estos problemas.

CosmoSIS es un código para la estimación de parámetros cosmológicos.

Es un framework para estructurar estimaciones a parámetros cosmológicos, en una manera que facilita la reusabilidad, depuración, verificabilidad y compartir código en la forma de módulos de cálculo.

COSMOlogy Survey Inference System

Rol en Cosmología

Consolida y conecta los códigos existentes para predecir observables cósmicos, y hace mucho más accesible el mapeo de likelihoods experimentales con un rango de diferentes técnicas.

Rol en Cosmología

DEMO

¿Preguntas? ¿Dudas?

Favio Vázquez

Cosmólogo y Data Scientist

@faviovaz

Cosmología + Machine Learning

Laboratory for Computation, Data, and Machine Learning

Machine Learning and Cosmological Simulations I: Semi-Analytical Models

Machine Learning and Cosmological Simulations II: Hydrodynamical Simulations

Apache Spark

Made with Slides.com