Análisis de incidencias


Benidorm Tech, 2020-09-30

Vuestro anfitrión hoy


@pinchito

Hoy veremos


Análisis de causa raíz. Los cinco porqués


El accidente de Chernóbil (1986)


Postmortems sin culpa


Colisión del USS John McCain (2017)


Liderazgo

Análisis de causa raíz 


Oh norl!


¿Todo el día apagando fuegos?


Tiempo dedicado a incidencias



Los cinco porqués


Pregunta como un niño pequeño


No te pares en la primera causa


Pero, ¿por qué "cinco" porqués?


¡Sigue preguntando hasta que todo esté claro!

Problema: ¿Causa raíz?


En un sistema complejo, los fallos no tienen una única causa


Deberíamos buscar cada problema
... y arreglarlos todos


Bucea hasta que tengas total confianza
en haber entendido el problema

Raíz de causas


Diagrama de Ishikawa


O de espina de pescado




Finding the root cause of a failure is like finding the root cause of a success

Chernóbil


El accidente de Chernóbil (1986)



Un accidente muy estudiado


Cientos de muertes

Miles de personas desplazadas


Distintos puntos de vista

Chernobyl (2019), HBO


¿Crees que la serie es realista?



Brevemente (¡Sin spoilers!)


Jefes malos


Operadores incompetentes


Respuesta terrible de las autoridades


La mitigación del desastre enmarañada por política

International Atomic Energy Agency



Informe IAEA INSAG-7, 1992



Un informe absolutamente extraordinario



Resumen



Fuente

Las cintas de Legásov


Fuente original

Brevemente (¡spoilers!)


Respuesta adecuada
Trabajadores abnegados


Operadores inexpertos


Cultura inadecuada


Jerarquía incompetente

Estándar de seguridad


1: Hacer el reactor fiable al máximo

2: Hacer la operación fiable al máximo:
  • Personal entrenado
  • Buena disciplina
  • Equipos fáciles de operar


3: Encerrado en una vasija contenedora



(Cinta 4 cara B)

Sistemas redundantes


Al menos dos sistemas de protección


Basados en principios diferentes


¡No 211 barras de control idénticas!



Tres visiones de Chernóbil



HBO: drama, comunistas malos


IAEA: operadores culpables, mala cultura


Valery Legásov: estándar de seguridad, sistemas redundantes

Postmortems sin culpa  


¿Es normal culpar a la gente?



¡Error humano!



Human error is not a cause, it is an effect.


If people are punished for being honest about what transpired, employees will soon learn that the personal costs to speaking up far outweigh the personal benefits. Improving the safety of a system is rooted in information.

United States Forest Service

Segundas historias


First Stories Second Stories
Human error is seen as cause of failure Human error is seen as the effect of systemic vulnerabilities deeper inside the organization
Saying what people should have done is a satisfying way to describe failure Saying what people should have done doesn’t explain why it made sense for them to do what they did
Telling people to be more careful will make the problem go away Only by constantly seeking out its vulnerabilities can organizations enhance safety

Colisión del USS John McCain




Revisa las consecuencias


¿De quién fue la culpa?


¿Qué medidas fueron correctas?

Castigar al operador


Liderazgo



¿Qué espera el equipo?



Actitudes y expectativas


Cómo actúes en una crisis marcará el tono



La comunicación es lo más importante



Explica claramente qué buscas



Intenta sacar lo mejor de cada cual



Consider listening to what an incident has to teach you. It's your job to figure out what that is.


John Allspaw, Incidents as we Imagine Them Versus How They Actually Are

Mal: Todo el día apagando fuegos


Bien: Incident-Driven Development


Los incidentes marcan el camino a seguir


Son incógnitas desconocidas: ¡acéptalo!


Intenta entenderlos y resolverlos a fondo


¿Qué puedo hacer para que no se repita?

¡Sí se puede!


Y ahora un poco de spam


Curso de escalabilidad




En castellano


¡Gasta ese presupuesto de formación!


Bonificable para empresas

Un hueco con forma de incidencias



¡Gracias!


@pinchito