Análisis de incidencias
Benidorm Tech, 2020-09-30
Hoy veremos
Análisis de causa raíz. Los cinco porqués
El accidente de Chernóbil (1986)
Postmortems sin culpa
Colisión del USS John McCain (2017)
Liderazgo
¿Todo el día apagando fuegos?
Tiempo dedicado a incidencias
Los cinco porqués
Pregunta como un niño pequeño
No te pares en la primera causa
Pero, ¿por qué "cinco" porqués?
¡Sigue preguntando hasta que todo esté claro!
Problema: ¿Causa raíz?
En un sistema complejo, los fallos no tienen una única causa
Deberíamos buscar cada problema
... y arreglarlos todos
Bucea hasta que tengas total confianza
en haber entendido el problema
Finding the root cause of a failure is like finding the root cause of a success
El accidente de Chernóbil (1986)
Un accidente muy estudiado
Cientos de muertes
Miles de personas desplazadas
Distintos puntos de vista
¿Crees que la serie es realista?
Brevemente (¡Sin spoilers!)
Jefes malos
Operadores incompetentes
Respuesta terrible de las autoridades
La mitigación del desastre enmarañada por política
International Atomic Energy Agency
Informe IAEA INSAG-7, 1992
Un informe absolutamente extraordinario
Resumen
Fuente
Brevemente (¡spoilers!)
Respuesta adecuada
Trabajadores abnegados
Operadores inexpertos
Cultura inadecuada
Jerarquía incompetente
Estándar de seguridad
1: Hacer el reactor fiable al máximo
2: Hacer la operación fiable al máximo:
- Personal entrenado
- Buena disciplina
- Equipos fáciles de operar
3: Encerrado en una vasija contenedora
(Cinta 4 cara B)
Sistemas redundantes
Al menos dos sistemas de protección
Basados en principios diferentes
¡No 211 barras de control idénticas!
Tres visiones de Chernóbil
HBO: drama, comunistas malos
IAEA: operadores culpables, mala cultura
Valery Legásov: estándar de seguridad, sistemas redundantes
¿Es normal culpar a la gente?
¡Error humano!
Human error is not a cause, it is an effect.
If people are punished for being honest about what transpired, employees will soon learn that the personal costs to speaking up far outweigh the personal benefits. Improving the safety of a system is rooted in information.
United States Forest Service
Segundas historias
First Stories |
Second Stories |
Human error is seen as cause of failure |
Human error is seen as the effect of systemic vulnerabilities deeper inside the organization |
Saying what people should have done is a satisfying way to describe failure |
Saying what people should have done doesn’t explain why it made sense for them to do what they did |
Telling people to be more careful will make the problem go away |
Only by constantly seeking out its vulnerabilities can organizations enhance safety |
Colisión del USS John McCain
Revisa las consecuencias
¿De quién fue la culpa?
¿Qué medidas fueron correctas?
Actitudes y expectativas
Cómo actúes en una crisis marcará el tono
La comunicación es lo más importante
Explica claramente qué buscas
Intenta sacar lo mejor de cada cual
Mal: Todo el día apagando fuegos
Bien: Incident-Driven Development
Los incidentes marcan el camino a seguir
Son incógnitas desconocidas: ¡acéptalo!
Intenta entenderlos y resolverlos a fondo
¿Qué puedo hacer para que no se repita?
Curso de escalabilidad
En castellano
¡Gasta ese presupuesto de formación!
Bonificable para empresas
Un hueco con forma de incidencias