Desafíos de Operaciones

CLOUD COMPUTING

v2.0 2026

Si AWS cambia continuamente...

¿Cómo mantenemos una aplicación funcionando?

Si AWS cambia continuamente...

¿Cómo mantenemos una aplicación funcionando?

Respuesta:

CloudOps

Entendiendo CloudOps

CLOUD COMPUTING

¿Qué es CloudOps?

Conjunto de prácticas utilizadas para operar sistemas cloud en producción.

Objetivos:

  • Disponibilidad
  • Seguridad
  • Observabilidad
  • Automatización
  • Eficiencia operativa

Aplicación simple

Usuario
   |
Servidor
   |
Aplicación

Problemas limitados.

Aplicación distribuida

        Load Balancer
        /          \
    App 1         App 2
        \          /
         Base de Datos

Nuevos desafíos:

  • Escalabilidad
  • Monitoreo
  • Alta disponibilidad

Aplicación moderna

Frontend
 ├── Auth
 ├── Orders
 ├── Payments
 ├── Inventory
 └── Notifications

Nuevos desafíos:

  • Logs distribuidos
  • Seguridad
  • Trazabilidad
  • Observabilidad

Preguntas operativas

Cuando algo falla:

  • ¿Qué pasó?
  • ¿Cuándo ocurrió?
  • ¿Quién hizo cambios?
  • ¿Qué recursos están afectados?
  • ¿Es un problema o un ataque?

Trabajo de un equipo CloudOps

  • Monitoreo
  • Observabilidad
  • Seguridad
  • Automatización
  • Gestión de incidentes
  • Recuperación ante fallos
  • Optimización de costos

Monitorear ya no alcanza

Antes:

  • CPU
  • Memoria
  • Disco

Hoy:

  • Sistemas distribuidos
  • APIs
  • Contenedores
  • Microservicios

Observabilidad

CLOUD COMPUTING

Observabilidad

Capacidad de comprender el estado interno de un sistema complejo a partir de sus señales externas.

Tres

pilares

Visualizar para analizar

Monitoreo para
conocer problemas

Mejorar
performance

Métricas

Responden:

¿Cómo está funcionando?

Ejemplos:

  • CPU
  • RAM
  • Latencia
  • Requests por segundo

Logs

Responden:

¿Qué ocurrió?

Ejemplos:

  • Errores
  • Accesos
  • Eventos de aplicación

Tracing

Responde:

¿Por dónde pasó una solicitud?

Usuario
 ↓
Frontend
 ↓
Auth
 ↓
Payments
 ↓
Base de datos

Gestión de incidentes

Un incidente es cualquier situación que afecta la operación normal.

Ejemplos:

  • Caídas
  • Lentitud
  • Errores
  • Ataques

Durante un incidente

Necesitamos responder:

  • ¿Qué ocurrió?
  • ¿Cuándo?
  • ¿Quién realizó cambios?
  • ¿Qué servicios están afectados?

Herramientas AWS

CLOUD COMPUTING

CloudWatch

¿Cómo sabemos que existe un problema?

  • Métricas
  • Logs
  • Alarmas

Caso práctico

CloudWatch detecta:

CPU > 90%
durante 10 minutos

Genera una alarma.

CloudTrail

¿Qué ocurrió?

Registra:

  • Acciones de usuarios
  • Cambios de configuración
  • Llamadas API

Caso práctico

Pregunta:

¿Quién eliminó este bucket?

CloudTrail permite responderla.

EventBridge

¿Cómo reaccionamos?

Evento
  ↓
Regla
  ↓
Acción automática

Caso práctico

CloudTrail registra:

Se creó un usuario IAM

EventBridge:

  • Envía correo
  • Genera ticket
  • Ejecuta Lambda

Security Hub

¿Estamos seguros?

Centraliza hallazgos de seguridad.

Ejemplos

  • Buckets públicos
  • Credenciales comprometidas
  • Puertos expuestos

Conectando herramientas

CloudTrail
      ↓
EventBridge
      ↓
CloudWatch
      ↓
Operador
      ↓
Security Hub

Desafíos

CLOUD COMPUTING

Desafíos técnicos

  • Disponibilidad
  • Seguridad
  • Escalabilidad
  • Costos
  • Automatización

Desafíos humanos

Frecuentemente los problemas son:

  • Falta de documentación
  • Exceso de alertas
  • Falta de experiencia
  • Dependencia de personas clave

Costos operativos

La nube permite crecer rápidamente.

Pero también genera:

  • Recursos olvidados
  • Sobreaprovisionamiento
  • Gastos inesperados

Seguridad continua

La seguridad no es una tarea única.

Requiere:

  • Monitoreo permanente
  • Auditoría
  • Revisión de accesos
  • Cumplimiento

Lección principal

Desplegar una aplicación es solamente el comienzo.

Operarla correctamente es el verdadero desafío.

Conclusiones

CloudOps permite:

  • Mantener disponibilidad
  • Detectar incidentes
  • Automatizar respuestas
  • Mejorar seguridad
  • Operar sistemas complejos

Reflexión final

¿Quién detecta el problema?

¿Quién recibe la alerta?

¿Quién investiga lo ocurrido?

¿Quién responde al incidente?

CloudOps existe para responder esas preguntas.

Sobre esta presentación

Atribución 4.0 Internacional (CC BY 4.0)

https://creativecommons.org/licenses/by/4.0/deed.es

CLOUD COMPUTING