Introducción a BigQuery.

¿Qué es BigQuery?

  • Servicio de almacenamiento y procesamiento de datos en la nube de Google Cloud.

  • Diseñado para consultas SQL de gran escala con alto rendimiento.

  • Ideal para análisis de datos, machine learning y business intelligence.

  • Procesamiento "serverless", sin necesidad de infraestructura propia.

Modelos de Precios de BigQuery

On-demand (pago por consulta)

  • Costo basado en la cantidad de datos procesados.
  • Primera consulta gratuita hasta 1TB/mes.
  • Precio: $5 por TB procesado.

Flat-rate (pago por capacidad reservada)

  • Se paga una cuota mensual por capacidad de procesamiento fija.
  • Más predecible para grandes volúmenes de datos.

Primeros Pasos con SQL en BigQuery

SQL: El lenguaje universal de bases de datos

  • SQL (Structured Query Language) es un lenguaje estándar para gestionar bases de datos.

  • Permite consultar, insertar, actualizar y eliminar datos en bases de datos relacionales.

  • Se usa en BigQuery para analizar grandes volúmenes de datos rápidamente.

SELECT

Seleccionar todas las filas de una tabla.

SELECT * 
FROM `proyecto_id.dataset_id.nombre_tabla`;

COUNT

Contar filas en la tabla.

SELECT COUNT(*) 
FROM `proyecto_id.dataset_id.nombre_tabla`;

WHERE

Filtrar datos por fecha.

SELECT * 
FROM `proyecto_id.dataset_id.ventas` 
WHERE fecha >= '2024-01-01';

ORDER BY

Ordenar datos mediante una columna.

SELECT 
	categorias,
    ventas
FROM `proyecto_id.dataset_id.ventas`
ORDER BY categorias DESC;

Funciones de Agregación

GROUP BY

  • Agrupa los resultados basados en valores de una columna.

  • Se usa con funciones de agregación como SUM, COUNT, AVG, etc.

SELECT
	categoria,
	SUM(ventas) as total_ventas
FROM `proyecto_id.dataset_id.nombre_tabla`
GROUP BY categoria;

COUNT

Cuenta los valores de una columna en un conjunto de filas.

SELECT
	mes,
 	COUNT(ventas) AS count_ventas_mes
FROM `proyecto_id.dataset_id.ventas`
GROUP BY mes
ORDER BY mes;

SUM

Suma los valores de una columna en un conjunto de filas.

SELECT
	mes,
  	SUM(ventas) AS total_ventas_mes
FROM `proyecto_id.dataset_id.ventas`
GROUP BY mes
ORDER BY mes;

AVERAGE

Promedia los valores de una columna en un conjunto de filas.

SELECT
	mes,
 	AVG(ventas) AS promedio_ventas_mes
FROM `proyecto_id.dataset_id.ventas`
GROUP BY mes
ORDER BY mes;

MAX & MIN

Maximo y minimo entre los valores de una columna en un conjunto de filas.

SELECT
	mes,
  	MAX(ventas) AS max_ventas_mes,
  	MIN(ventas) AS min_ventas_mes
FROM `proyecto_id.dataset_id.ventas`
GROUP BY mes
ORDER BY mes;

Copy of Introduccion a BigQuery

By Le Wagon LatAm

Copy of Introduccion a BigQuery

  • 143