Machine Learning en Seguridad Informática: Funciona?

Czech Technical Univ - Stratosphere Lab

Sebastian Garcia 

@eldracote

bit.ly/TandilSecMLS

seguridad informatica

  • hay definiciones

  • Pero... las definiciones son subjetivas y cambiantes

    • que es un ataque?

    • que es malicioso?

    • Que es fraude?

  • algunos casos son faciles, otros no

  • malware? rats? identity theft? fraude?

machine learning

un programa 'aprende' una tarea, si una medida de rendimiento mejora en esa tarea con mas experiencia

Tom Mitchell

ML para seguridad?

Que resuelva todos los problemas de seguridad, sin errores, todo el tiempo, en tiempo real. incluso los que todavia no conozco

Que queremos en ml para seguridad?

ML para seguridad?

  • funciona o no?

    • dominio de trabajo

    • DATASET

    • unidad de analysis

    • funcion de costo

    • implementacion

dominio de trabajo

  • el problema mas importante

  • poblacion cambiante, no definida y subjetiva

    • cada malware es una poblacion nueva

  • concept drift

    • el concepto a detectar cambia! el malware/ataques cambian!

    • hay que adaptar los modelos continuamente

datasets

  • separacion de train/dev/test

    • el problema de las distintas distribuciones

      • ​cross validation? leave-one-out?: No andan si no provienen de la misma distribucion!

    • dev set: orientado a seleccionar tus modelos

    • test set: orientado a saber si generalizas

    • big data hace que puedas tener <1% test set

unidad de analysis

  • (Que queres detectar?/clasificar?)

    • ataques manuales

    • ataques ddos  

    • BINARIOS DE MALWARE

    • paquetes en la red

  • FLUJOS EN LA RED

  • EQUIPOS INFECTADOS

  • EQUIPOS INFECTADOS POR UNIDAD DE TIEMPO

costo

  • Costo de cometer errores

    • false positive: dijo positivo, no era

      • en una busqueda, uno lo filtra

      • en seguridad, miles de $ de operacion. gente presa. conflictos internacionales

    • false negative: dijo negativo, no era

      • datos no encontrados

      • miles de $ de perdida de datos. robo de identidades. sitios caidos

funcion de costo

  • 1 METRICA PARA OPTIMIZAR

    • balance: f1 score

  • n metricas para satisfacer

    • e.g.: limite en el false positive rate

  • permite comparar

    • con otros y con tu modelo anterior

implementacion

  • estilo "anomaly detection"

    • modelo lo normal, detecto el resto

  • estilo "misuse detection"

    • modelo lo malicioso, busco cosas similares

implementacion

  1. anomaly detection ensembles

  2. clustering

  3. threat detection/classification

  4. human labeling/verification

  5. feedback

fuerte sesgo a fpr=0

fallas comunes

  • base rate fallacy

    • test de alcoholemia

      • si la persona tomo, detecta perfecto: 100%

      • si la persona no tomo, 5% de las veces da positivo

      • hay 1 persona que tomo en 1,000 conductores

    • si paro una persona al azar y el test da positivo, que probabilidad hay de que haya tomado?

95%

~2%

stratosphere ips

  • primer ips con MACHINE LEARNING, basado en comportamiento

    • orientado a ataques de red

    • version local y cloud

    • diseñado para protejer ong y la sociedad civil

    • misuse detection

  • ​herramienta principal del strtosphere lab

https://stratosphereips.org

Avast Foundation -CTU project CivilSphere

To protect NGOs in Czech Republic and Latin America

  • salary for students

  • Love to help others!

  • Malware network traffic analysis

  • Help improve our protection methods

  • From January 2018

Gracias!

Sebastian garcia sebastian.garcia@agents.fel.cvut.cz

@eldracote

stratosphere ips

Civil Society is at Risk

Machine Learning en Seguridad Informática: Funciona?

By eldraco

Machine Learning en Seguridad Informática: Funciona?

  • 1,837