Machine Learning en Seguridad Informática: Funciona?

Czech Technical Univ - Stratosphere Lab

Sebastian Garcia

@eldracote

bit.ly/TandilSecMLS

seguridad informatica

hay definiciones
Pero... las definiciones son subjetivas y cambiantes
- que es un ataque?
- que es malicioso?
- Que es fraude?
algunos casos son faciles, otros no
malware? rats? identity theft? fraude?

machine learning

un programa 'aprende' una tarea, si una medida de rendimiento mejora en esa tarea con mas experiencia

Tom Mitchell

ML para seguridad?

Que resuelva todos los problemas de seguridad, sin errores, todo el tiempo, en tiempo real. incluso los que todavia no conozco

Que queremos en ml para seguridad?

ML para seguridad?

funciona o no?
- dominio de trabajo
- DATASET
- unidad de analysis
- funcion de costo
- implementacion

dominio de trabajo

el problema mas importante
poblacion cambiante, no definida y subjetiva
- cada malware es una poblacion nueva
concept drift
- el concepto a detectar cambia! el malware/ataques cambian!
- hay que adaptar los modelos continuamente

datasets

separacion de train/dev/test
- el problema de las distintas distribuciones
  - cross validation? leave-one-out?: No andan si no provienen de la misma distribucion!
- dev set: orientado a seleccionar tus modelos
- test set: orientado a saber si generalizas
- big data hace que puedas tener <1% test set

unidad de analysis

(Que queres detectar?/clasificar?)
- ataques manuales
- ataques ddos
- BINARIOS DE MALWARE
- paquetes en la red

FLUJOS EN LA RED
EQUIPOS INFECTADOS
EQUIPOS INFECTADOS POR UNIDAD DE TIEMPO

costo

Costo de cometer errores
- false positive: dijo positivo, no era
  - en una busqueda, uno lo filtra
  - en seguridad, miles de $ de operacion. gente presa. conflictos internacionales
- false negative: dijo negativo, no era
  - datos no encontrados
  - miles de $ de perdida de datos. robo de identidades. sitios caidos

funcion de costo

1 METRICA PARA OPTIMIZAR
- balance: f1 score
n metricas para satisfacer
- e.g.: limite en el false positive rate
permite comparar
- con otros y con tu modelo anterior

implementacion

estilo "anomaly detection"
- modelo lo normal, detecto el resto
estilo "misuse detection"
- modelo lo malicioso, busco cosas similares

implementacion

anomaly detection ensembles
clustering
threat detection/classification
human labeling/verification
feedback

fuerte sesgo a fpr=0

fallas comunes

base rate fallacy
- test de alcoholemia
  - si la persona tomo, detecta perfecto: 100%
  - si la persona no tomo, 5% de las veces da positivo
  - hay 1 persona que tomo en 1,000 conductores
- si paro una persona al azar y el test da positivo, que probabilidad hay de que haya tomado?

95%

~2%

stratosphere ips

primer ips con MACHINE LEARNING, basado en comportamiento
- orientado a ataques de red
- version local y cloud
- diseñado para protejer ong y la sociedad civil
- misuse detection
herramienta principal del strtosphere lab

https://stratosphereips.org

Avast Foundation -CTU project CivilSphere

To protect NGOs in Czech Republic and Latin America

salary for students
Love to help others!
Malware network traffic analysis
Help improve our protection methods
From January 2018

Gracias!

Sebastian garcia sebastian.garcia@agents.fel.cvut.cz

@eldracote

https://stratosphereips.org

stratosphere ips

Civil Society is at Risk

Machine Learning en Seguridad Informática: Funciona?

By eldraco

Machine Learning en Seguridad Informática: Funciona?

2,130

eldraco