Análisis de incidencias
Benidorm Tech, 2020-09-30
Vuestro anfitrión hoy
Hoy veremos
Análisis de causa raíz. Los cinco porqués
El accidente de Chernóbil (1986)
Postmortems sin culpa
Colisión del USS John McCain (2017)
Liderazgo
Análisis de causa raíz
Oh norl!
¿Todo el día apagando fuegos?
Tiempo dedicado a incidencias
Los cinco porqués
Pregunta como un niño pequeño
No te pares en la primera causa
Pero, ¿por qué "cinco" porqués?
¡Sigue preguntando hasta que todo esté claro!
Problema: ¿Causa raíz?
En un sistema complejo, los fallos no tienen una única causa
Deberíamos buscar cada problema
... y arreglarlos todos
Bucea hasta que tengas total confianza
en haber entendido el problema
Raíz de causas
Diagrama de Ishikawa
O de espina de pescado
Finding the root cause of a failure is like finding the root cause of a success
Chernóbil
El accidente de Chernóbil (1986)
Un accidente muy estudiado
Cientos de muertes
Miles de personas desplazadas
Distintos puntos de vista
Chernobyl (2019), HBO
¿Crees que la serie es realista?
Brevemente (¡Sin spoilers!)
Jefes malos
Operadores incompetentes
Respuesta terrible de las autoridades
La mitigación del desastre enmarañada por política
International Atomic Energy Agency
Informe IAEA INSAG-7, 1992
Un informe absolutamente extraordinario
Las cintas de Legásov
Brevemente (¡spoilers!)
Respuesta adecuada
Trabajadores abnegados
Operadores inexpertos
Cultura inadecuada
Jerarquía incompetente
Estándar de seguridad
1: Hacer el reactor fiable al máximo
2: Hacer la operación fiable al máximo:
- Personal entrenado
- Buena disciplina
- Equipos fáciles de operar
3: Encerrado en una vasija contenedora
Sistemas redundantes
Al menos dos sistemas de protección
Basados en principios diferentes
¡No 211 barras de control idénticas!
Tres visiones de Chernóbil
HBO: drama, comunistas malos
IAEA: operadores culpables, mala cultura
Valery Legásov: estándar de seguridad, sistemas redundantes
Postmortems sin culpa
¿Es normal culpar a la gente?
¡Error humano!
Human error is not a cause, it is an effect.
John Allspaw: Outages, Post Mortems, and Human Error 101
If people are punished for being honest about what transpired, employees will soon learn that the personal costs to speaking up far outweigh the personal benefits. Improving the safety of a system is rooted in information.
United States Forest Service
Segundas historias
First Stories | Second Stories |
---|---|
Human error is seen as cause of failure | Human error is seen as the effect of systemic vulnerabilities deeper inside the organization |
Saying what people should have done is a satisfying way to describe failure | Saying what people should have done doesn’t explain why it made sense for them to do what they did |
Telling people to be more careful will make the problem go away | Only by constantly seeking out its vulnerabilities can organizations enhance safety |
Colisión del USS John McCain
Revisa el sumario del incidente
Revisa las consecuencias
¿De quién fue la culpa?
¿Qué medidas fueron correctas?
Castigar al operador
Liderazgo
¿Qué espera el equipo?
Actitudes y expectativas
Cómo actúes en una crisis marcará el tono
La comunicación es lo más importante
Explica claramente qué buscas
Intenta sacar lo mejor de cada cual
Consider listening to what an incident has to teach you. It's your job to figure out what that is.
John Allspaw, Incidents as we Imagine Them Versus How They Actually Are
Mal: Todo el día apagando fuegos
Bien: Incident-Driven Development
Los incidentes marcan el camino a seguir
Son incógnitas desconocidas: ¡acéptalo!
Intenta entenderlos y resolverlos a fondo
¿Qué puedo hacer para que no se repita?
¡Sí se puede!
Y ahora un poco de spam
Curso de escalabilidad
En castellano
¡Gasta ese presupuesto de formación!
Bonificable para empresas
Un hueco con forma de incidencias
¡Gracias!
Benidorm Tech: Análisis de incidencias
By Alex Fernández
Benidorm Tech: Análisis de incidencias
Diapos para el Meetup en Benidorm Tech: https://www.meetup.com/es-ES/Benidorm-Tech-Meetup/events/273117335/
- 1,377