Unsupervised Learning

Apa itu Unsupervised Learning?

Unsupervised Learning adalah salah satu jenis utama Machine Learning di mana model tidak diberikan label output. Artinya, dataset hanya berisi input (fitur) tanpa jawaban yang benar.
Tujuan model adalah menemukan pola tersembunyi atau struktur dalam data, seperti mengelompokkan item serupa atau mengurangi dimensi data.

Contoh sederhana:

  • Mengelompokkan pelanggan berdasarkan kebiasaan belanja.
  • Menemukan topik tersembunyi dalam kumpulan artikel.
  • Mereduksi data gambar beresolusi tinggi ke dimensi lebih kecil.

Jenis-Jenis Unsupervised Learning

1. Clustering (Pengelompokan)

Mengelompokkan data ke dalam beberapa cluster/grup berdasarkan kesamaan fitur.

  • Contoh aplikasi:
    • Segmentasi pelanggan (misalnya, pelanggan premium vs reguler)
    • Image segmentation (membedakan objek dalam gambar)
  • Algoritma populer:
    • K-Means
    • Hierarchical Clustering
    • DBSCAN

2. Dimensionality Reduction (Reduksi Dimensi)

Mengurangi jumlah fitur dalam data tanpa kehilangan informasi penting.

  • Contoh aplikasi:
    • Visualisasi data berdimensi tinggi dalam 2D atau 3D
    • Preprocessing untuk mempercepat training model
  • Algoritma populer:
    • PCA (Principal Component Analysis)
    • t-SNE
    • Autoencoder (Deep Learning)

3. Association Rule Learning

Menemukan aturan atau hubungan antar item dalam dataset besar.

  • Contoh aplikasi:
    • Market Basket Analysis (misalnya: pelanggan yang membeli roti sering juga membeli susu)
  • Algoritma populer:
    • Apriori
    • FP-Growth

Alur Kerja Unsupervised Learning

  1. Kumpulkan Data: dataset tanpa label (misalnya data transaksi).
  2. Preprocessing Data: bersihkan data, tangani missing values, scaling, dan encoding.
  3. Pilih Algoritma: clustering, dimensionality reduction, atau association rule.
  4. Training Model: biarkan model menemukan pola dari data.
  5. Evaluasi Hasil: gunakan metrik evaluasi khusus (bukan akurasi sederhana).
  6. Interpretasi: hasil berupa cluster, dimensi baru, atau aturan asosiasi.

Evaluasi dalam Unsupervised Learning

Berbeda dengan supervised learning, evaluasi unsupervised tidak memiliki “jawaban benar”. Metrik evaluasi yang umum dipakai:

  • Clustering:
    • Silhouette Score
    • Davies-Bouldin Index
    • Calinski-Harabasz Index
  • Dimensionality Reduction:
    • Variance Explained (untuk PCA)
  • Association Rule:
    • Support, Confidence, Lift

Contoh Implementasi Sederhana (Python)

Clustering dengan K-Means

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 1. Load dataset
iris = load_iris()
X = iris.data

# 2. Clustering dengan K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_

# 3. Visualisasi (2 dimensi pertama)
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.xlabel("Fitur 1")
plt.ylabel("Fitur 2")
plt.title("Clustering Iris dengan K-Means")
plt.show()

Hasilnya: data bunga iris akan terbagi ke dalam 3 cluster berdasarkan kesamaan fitur.

Penerapan Unsupervised Learning di Dunia Nyata

  • E-commerce & Retail: segmentasi pelanggan untuk personalisasi promosi.
  • Keamanan Siber: deteksi anomali (contoh: transaksi mencurigakan).
  • Kesehatan: mengelompokkan pasien berdasarkan gejala atau hasil lab.
  • Natural Language Processing (NLP): topic modeling (LDA, word embeddings).
  • Computer Vision: image compression, face recognition (clustering fitur wajah).

Unsupervised Learning membuka jalan untuk menemukan pola dan struktur tersembunyi dalam data yang tidak memiliki label. Walaupun lebih sulit dievaluasi dibanding supervised learning, teknik ini sangat berguna untuk eksplorasi data, deteksi anomali, hingga pemahaman perilaku pengguna.

Menguasai Clustering, Dimensionality Reduction, dan Association Rule Learning adalah langkah penting sebelum masuk ke tahap lanjut seperti Reinforcement Learning atau Deep Learning.