Machine Learning en Seguridad Informática: Funciona?
Czech Technical Univ - Stratosphere Lab
Sebastian Garcia
@eldracote
bit.ly/TandilSecMLS
seguridad informatica
-
hay definiciones
-
Pero... las definiciones son subjetivas y cambiantes
-
que es un ataque?
-
que es malicioso?
-
Que es fraude?
-
-
algunos casos son faciles, otros no
-
malware? rats? identity theft? fraude?
machine learning
un programa 'aprende' una tarea, si una medida de rendimiento mejora en esa tarea con mas experiencia
Tom Mitchell
ML para seguridad?
Que resuelva todos los problemas de seguridad, sin errores, todo el tiempo, en tiempo real. incluso los que todavia no conozco
Que queremos en ml para seguridad?
ML para seguridad?
-
funciona o no?
-
dominio de trabajo
-
DATASET
-
unidad de analysis
-
funcion de costo
-
implementacion
-
dominio de trabajo
-
el problema mas importante
-
poblacion cambiante, no definida y subjetiva
-
cada malware es una poblacion nueva
-
-
concept drift
-
el concepto a detectar cambia! el malware/ataques cambian!
-
hay que adaptar los modelos continuamente
-
datasets
-
separacion de train/dev/test
-
el problema de las distintas distribuciones
-
cross validation? leave-one-out?: No andan si no provienen de la misma distribucion!
-
-
dev set: orientado a seleccionar tus modelos
-
test set: orientado a saber si generalizas
-
big data hace que puedas tener <1% test set
-
unidad de analysis
-
(Que queres detectar?/clasificar?)
-
ataques manuales
-
ataques ddos
-
BINARIOS DE MALWARE
-
paquetes en la red
-
-
FLUJOS EN LA RED
-
EQUIPOS INFECTADOS
-
EQUIPOS INFECTADOS POR UNIDAD DE TIEMPO
costo
-
Costo de cometer errores
-
false positive: dijo positivo, no era
-
en una busqueda, uno lo filtra
-
en seguridad, miles de $ de operacion. gente presa. conflictos internacionales
-
-
false negative: dijo negativo, no era
-
datos no encontrados
-
miles de $ de perdida de datos. robo de identidades. sitios caidos
-
-
funcion de costo
-
1 METRICA PARA OPTIMIZAR
-
balance: f1 score
-
-
n metricas para satisfacer
-
e.g.: limite en el false positive rate
-
-
permite comparar
-
con otros y con tu modelo anterior
-
implementacion
-
estilo "anomaly detection"
-
modelo lo normal, detecto el resto
-
-
estilo "misuse detection"
-
modelo lo malicioso, busco cosas similares
-
implementacion
-
anomaly detection ensembles
-
clustering
-
threat detection/classification
-
human labeling/verification
-
feedback
fuerte sesgo a fpr=0
fallas comunes
-
base rate fallacy
-
test de alcoholemia
-
si la persona tomo, detecta perfecto: 100%
-
si la persona no tomo, 5% de las veces da positivo
-
hay 1 persona que tomo en 1,000 conductores
-
-
si paro una persona al azar y el test da positivo, que probabilidad hay de que haya tomado?
-
95%
~2%
stratosphere ips
-
primer ips con MACHINE LEARNING, basado en comportamiento
-
orientado a ataques de red
-
version local y cloud
-
diseñado para protejer ong y la sociedad civil
-
misuse detection
-
-
herramienta principal del strtosphere lab
https://stratosphereips.org
Avast Foundation -CTU project CivilSphere
To protect NGOs in Czech Republic and Latin America
-
salary for students
-
Love to help others!
-
Malware network traffic analysis
-
Help improve our protection methods
-
From January 2018
Gracias!
Sebastian garcia sebastian.garcia@agents.fel.cvut.cz
@eldracote
stratosphere ips
Civil Society is at Risk
Machine Learning en Seguridad Informática: Funciona?
By eldraco
Machine Learning en Seguridad Informática: Funciona?
- 1,837