Klasifikasi SMS Spam Menggunakan Algoritma Naive Bayes, Logistic Regression, dan Linear SVM Berbasis TF-IDF dan CountVectorizer

Penulis

  • Nilovar Asyiah Universitas Pamulang
  • Widodo Aktavia Universitas Pamulang

DOI:

https://doi.org/10.47970/siskom-kb.v9i3.987

Kata Kunci:

Machine Learning, Text Mining, Klasifikasi Spam, Naive Bayes, Logistic Regression, SVM, TF-IDF, CountVectorizer

Abstrak

Penelitian ini bertujuan untuk mengklasifikasikan pesan singkat (Short Message Service/SMS) ke dalam dua kategori, yaitu spam dan non-spam, dengan menggunakan tiga algoritma machine learning yaitu Naive Bayes, Logistic Regression, dan Linear Support Vector Machine (SVM). Dataset yang digunakan terdiri dari 5.572 pesan SMS berbahasa Indonesia yang diperoleh dari repositori publik dan dibagi menjadi tiga kategori utama, yaitu pesan promosi, normal, dan penipuan. Tahapan pra-pemrosesan teks meliputi normalisasi huruf, penghapusan tanda baca dan stopword menggunakan pustaka NLTK, serta proses stemming untuk menyamakan bentuk dasar kata. Data teks kemudian direpresentasikan menjadi bentuk numerik menggunakan dua metode ekstraksi fitur, yaitu TF-IDF dan CountVectorizer. Setiap model diuji dengan metrik evaluasi berupa akurasi, presisi, recall, dan F1-score. Hasil penelitian menunjukkan bahwa model Logistic Regression dengan representasi TF-IDF menghasilkan akurasi tertinggi sebesar 93,89%, mengungguli algoritma Naive Bayes dan SVM. Penelitian ini membuktikan bahwa kombinasi tahapan pra-pemrosesan yang tepat, metode representasi fitur yang sesuai, dan pemilihan algoritma yang efektif dapat meningkatkan performa sistem klasifikasi pesan spam berbahasa Indonesia secara signifikan.

##submission.downloads##

Diterbitkan

2026-05-30