SISTEM PERINGATAN DINI UNTUK MENDETEKSI SPAM PADA EMAIL MENGGUNAKAN DNSBL FILTER DAN SVM


Apa itu

"Email Yang Terkirim
Tidak Semuanya Dapat Masuk Ke Inbox Penerima"

How Email Sent
Bounce
"Bounce Message adalah email otomatis yang memberi tahu pengirim pesan sebelumnya bahwa pesan itu belum terkirim (atau masalah pengiriman lainnya terjadi)."
Soft Bounce
"Bounce yang diakibatkan oleh faktor eksternal seperti penuhnya Inbox, server penerima email sedang down atau luring, isi pesan yang terlalu besar dan sebagainya."
Hard Bounce
"Bounce dengan penyebab internal seperti konten tidak sesuai kaidah penulisan yang baik, alamat email yang tidak valid, domain pengguna yang terdaftar dalam Blacklist dan sebagainya."

Email Address Domain Detected As Vulnerable Domain
Email Sent
Email Bounce Flow

Email Confirmed as SPAM

Email Bounced

Banyak Email tedeteksi sebagai spam.
Dampak Negatif
IP address/DNS di banned.
Proses whitelist rumit dan memakan waktu.
Menghambat aktivitas marketing perusahaan.
Menurunya omset perusahaan.
Menurut Hasan Alkahtani, taksonomi untuk penyaringan spam pada email secara umum dapat dibagi menjadi 2 yaitu Reputation-Based Filtering dan Content-Based Filtering.
DNSBL
"DNSBL adalah daftar alamat IP yang dicurigai mengirim spam dan digunakan untuk mencegah pesan email yang tidak diinginkan mencapai penerima yang tidak curiga."
SVM
"Model pembelajaran supervised dengan algoritma pembelajaran asosiasi yang menganalisis data untuk keperluan analisis klasifikasi ataupun regresi."
Kotlin
"Sebuah bahasa pemrograman dengan pengetikan statis yang berjalan pada Mesin Virtual Java ataupun menggunakan kompiler LLVM yang dapat pula dikompilasikan kedalam bentuk kode sumber JavaScript."
Email Spam Prevention System
DNSBL + SVM + Kotlin
=

How Email Spam Prevention System Work
Extract HTML
Scrapping Step
Saving to CSV File



DNS Lookup Type A to test URL (as example google.com)
(Become 172.217.194.113)
DNSBL Filter Step
Change Structure
(Become 113.194.217.172)
Concat with DNSBL (as example sbl.spamhaus.org)
(Become 113.194.217.172.sbl.spamhaus.org)
DNS Lookup Type TXT
Tokenisasi & Stop Word Removal menggunakan HanLP Library
SVM Learning Step
Mengindeks Kata dan Kategori
Membuat Fitur Data
Seleksi Fitur menggunakan Chi Square
Pemodelan menggunakan Support Vector Machine
Chi Square
Chi Square adalah salah satu jenis uji komparatif non parametris yang dilakukan pada dua variabel, di mana skala data kedua variabel adalah nominal. (Apabila dari 2 variabel, ada 1 variabel dengan skala nominal maka dilakukan uji chi square dengan merujuk bahwa harus digunakan uji pada derajat yang terendah). "
SVM Solver Type Kernel Linear
SVM Const
C = 500
Epsilon 0.01
SVM Solver Type Kernel Linear
SVM Const
C = Parameter C memberi tahu optimasi SVM seberapa banyak Anda ingin menghindari kesalahan klasifikasi setiap contoh pelatihan.
Epsilon = Margin Toleran
Thank
You !


Copy of TA 2
By Ahmad Basir
Copy of TA 2
- 178