El rol del Big Data y Data Scientist en la Cosmología
Favio Vázquez
Cosmólogo y Data Scientist
@faviovaz
5 de mayo de 2017
Seguir presentación en vivo
Releases 1.3.0, 1.4.0, 1.4.1 y 1.5.0
Resumen
¿Qué es el Big Data?
Actuales tendencias en Big Data
¿Quién es un Data Scientist?
¿Cuál es el papel del BD y el DS en la cosmología?
Apache Spark
Databricks
CosmoSIS
Demo (Spark + Databricks)
Big Data
¿Qué es?
Son los diversos tipos de procesos y estrategias de recolección, guardado y análisis que incluyen e integran distintos tipos de datos que no podrían ser estudiados con técnicas tradicionales de minería de datos.
Big Data
¿De dónde vienen estos datos?
Big Data
Primera Generación
Supercomputadoras
DATOS
ANALÍTICA
PERSONAS (DS)
Big Data
Segunda Generación
Data Warehouse
DATOS
ANALÍTICA
PERSONAS (DS)
Datos Estructurados
Analítica descriptiva
Enfocado en BI
Big Data
Tercera Generación
Hadoop + Data Lake
DATOS
ANALÍTICA
PERSONAS (DS)
Complicado centralizar datos
Herramientas muy complejas
Desarrolladores expertos en Big Data
Datos con poco valor sin ETL
Big Data
Nuevo Paradigma
Data Scientist
¿Quién es?
El encargado de saber todo lo necesario para poder utilizar las herramientas, lenguajes, plataformas y sistemas usados para analizar Big Data
Data Scientist
¿Qué debe saber?
La combinación compleja de hilos de ejecución, sistemas de almacenamiento y modos de trabajo.
Muy complicado obtener productividad y performance
Es un motor general y muy rápido para el procesamiento en paralelo de datos en gran escala.
Transformaciones
Acciones
Caché
Tipado
Scala y Java
Beneficios de RDD
Dataset[Row]
Optimizado
Versátil
Rol en Cosmología
¿En qué etapa del Big Data está la cosmología?
Primera :(
PERO ...
Rol en Cosmología
El futuro es brillante
Cosmología Open Source
Proyectos DS + Cosmología
Técnicas BD + Cosmología
Nuevos Lenguajes y Herramientas
Data Scientists interesados en Cosmología
Retos en cosmología de precisión
Muchos observables, correlacionados algunos:
CMB, lensing, clusters de galaxias, supernovas
Diferentes modelos teóricos:
Ajustes de curvas de supernovas, modelos de bias para galaxias
Diferentes parámetros y sistemática en cada modelo:
¿Cómo samplear sobre cada uno de ellos?
Posteriors y Likelihoods complicados, a veces multimodales:
La forma de samplear puede impactar en los resultados
Retos en cosmología de precisión
¿Cómo rastrear contribuciones, asegurar reproducibilidad y consistencia?
¿Cómo usar la cantidad de códigos existentes, así como datos, sin pasarnos años intentando descifrarlos (a veces toda una maestría o doctorado)?
¿Cómo saber qué tipo de código usar, y qué lenguaje de programación aprender para poder realizar una investigación?
Grandes colaboraciones, de cientos de personas (DES, DESI, PLANCK, etc.):
CosmoSIS fue diseñado para intentar solucionar cada uno de estos problemas.
CosmoSIS es un código para la estimación de parámetros cosmológicos.
Es un framework para estructurar estimaciones a parámetros cosmológicos, en una manera que facilita la reusabilidad, depuración, verificabilidad y compartir código en la forma de módulos de cálculo.
COSMOlogy Survey Inference System
Rol en Cosmología
Consolida y conecta los códigos existentes para predecir observables cósmicos, y hace mucho más accesible el mapeo de likelihoods experimentales con un rango de diferentes técnicas.
Rol en Cosmología
¿Preguntas? ¿Dudas?
Favio Vázquez
Cosmólogo y Data Scientist
@faviovaz
Cosmología + Machine Learning
Laboratory for Computation, Data, and Machine Learning
Machine Learning and Cosmological Simulations I: Semi-Analytical Models
Machine Learning and Cosmological Simulations II: Hydrodynamical Simulations
Apache Spark