Machine Learning en Seguridad Informática: Funciona?
Czech Technical Univ - Stratosphere Lab
Sebastian Garcia
@eldracote
bit.ly
/TandilSecMLS
seguridad informatica
hay definiciones
Pero... las definiciones son subjetivas y cambiantes
que es un ataque?
que es malicioso?
Que es fraude?
algunos casos son faciles, otros no
malware? rats? identity theft? fraude?
machine learning
un programa 'aprende' una tarea, si una medida de rendimiento mejora en esa tarea con mas experiencia
Tom Mitchell
ML para seguridad?
Que resuelva todos los problemas de seguridad, sin errores, todo el tiempo, en tiempo real. incluso los que todavia no conozco
Que queremos en ml para seguridad?
ML para seguridad?
funciona o no?
dominio de trabajo
DATASET
unidad de analysis
funcion de costo
implementacion
dominio de trabajo
el problema mas
importante
poblacion cambiante, no definida y subjetiva
cada malware es una poblacion nueva
concept drift
el concepto a detectar cambia! el malware/ataques cambian!
hay que adaptar los modelos continuamente
datasets
separacion de train/dev/test
el problema de las distintas distribuciones
cross validation? leave-one-out?: No andan si no provienen de la misma distribucion!
dev set:
orientado a seleccionar tus modelos
test set:
orientado a saber si generalizas
big data hace que puedas tener
<1%
test set
unidad de analysis
(Que queres detectar?/clasificar?)
ataques manuales
ataques ddos
BINARIOS DE MALWARE
paquetes en la red
FLUJOS EN LA RED
EQUIPOS INFECTADOS
EQUIPOS INFECTADOS POR UNIDAD DE TIEMPO
costo
Costo de cometer errores
false positive: dijo positivo, no era
en una busqueda, uno lo filtra
en seguridad, miles de $ de operacion. gente presa. conflictos internacionales
false negative: dijo negativo, no era
datos no encontrados
miles de $ de perdida de datos. robo de identidades. sitios caidos
funcion de costo
1 METRICA PARA OPTIMIZAR
balance: f1 score
n metricas para satisfacer
e.g.: limite en el false positive rate
permite comparar
con otros y con tu modelo anterior
implementacion
estilo "anomaly detection"
modelo lo normal, detecto el resto
estilo "misuse detection"
modelo lo malicioso, busco cosas similares
implementacion
anomaly detection ensembles
clustering
threat detection/classification
human labeling/verification
feedback
fuerte sesgo a fpr=0
fallas comunes
base rate fallacy
test de alcoholemia
si la persona tomo, detecta perfecto: 100%
si la persona no tomo, 5% de las veces da positivo
hay 1 persona que tomo en 1,000 conductores
si paro una persona al azar y el test da positivo, que probabilidad hay de que haya tomado?
95%
~2%
stratosphere ips
primer ips con MACHINE LEARNING, basado en comportamiento
orientado a ataques de red
version local y cloud
diseñado para protejer ong y la sociedad civil
misuse detection
herramienta principal del strtosphere lab
https://stratosphereips.org
Avast Foundation -CTU project
CivilSphere
To protect NGOs in Czech Republic and Latin America
salary for students
Love to help others!
Malware network traffic analysis
Help improve our protection methods
From January 2018
Gracias!
Sebastian garcia
sebastian.garcia@agents.fel.cvut.cz
@eldracote
https://stratosphereips.org
stratosphere ips
Civil Society is at Risk