Model Training & Evaluasi

Setelah data diproses dan algoritma dipilih, tahap paling krusial dalam machine learning adalah model training dan evaluasi. Pada tahap ini, model belajar dari data training dan diuji kemampuannya dalam memprediksi data yang belum pernah dilihat. Proses training dan evaluasi yang baik akan menghasilkan model yang akurat, stabil, dan mampu melakukan generalisasi.

Model Training

Apa Itu Model Training?

Model training adalah proses di mana algoritma machine learning mempelajari pola dari data training dengan cara menyesuaikan parameter internalnya (misalnya bobot/weights).

Secara umum, proses training melibatkan:

  • Input data (fitur)
  • Target/label
  • Fungsi loss
  • Optimizer

Tujuan training adalah meminimalkan loss sehingga prediksi model mendekati nilai sebenarnya.

Training, Validation, dan Testing

Dataset umumnya dibagi menjadi:

  • Training set → untuk melatih model
  • Validation set → untuk tuning & pemilihan model
  • Test set → untuk evaluasi akhir

Contoh pembagian:

  • 70% training
  • 15% validation
  • 15% testing

Pembagian ini penting agar evaluasi tidak bias.

Proses Training Model

Tahapan umum:

  1. Inisialisasi parameter
  2. Forward pass (prediksi)
  3. Hitung loss
  4. Backpropagation (untuk model neural network)
  5. Update parameter
  6. Ulangi hingga konvergen atau epoch selesai

Evaluasi Model

Apa Itu Evaluasi Model?

Evaluasi model bertujuan untuk mengukur seberapa baik performa model dalam memprediksi data baru. Evaluasi tidak boleh hanya dilakukan pada data training karena akan menimbulkan overfitting.

Metrik Evaluasi Model

Metrik untuk Klasifikasi

  • Accuracy
    Persentase prediksi benar.
  • Precision
    Ketepatan prediksi positif.
  • Recall
    Kemampuan menemukan seluruh data positif.
  • F1-Score
    Rata-rata harmonis precision dan recall.
  • ROC-AUC
    Kemampuan model membedakan kelas.

Metrik untuk Regresi

  • Mean Absolute Error (MAE)
  • Mean Squared Error (MSE)
  • Root Mean Squared Error (RMSE)
  • R² Score

Pemilihan metrik tergantung konteks masalah.

Confusion Matrix

Confusion matrix menunjukkan:

  • True Positive (TP)
  • True Negative (TN)
  • False Positive (FP)
  • False Negative (FN)

Sangat berguna untuk memahami kesalahan model.

Cross-Validation dalam Evaluasi

Cross-validation digunakan untuk evaluasi yang lebih stabil dan andal.
Model diuji pada beberapa subset data dan hasilnya dirata-ratakan.

Manfaat:

  • Mengurangi bias evaluasi
  • Cocok untuk dataset kecil
  • Digunakan dalam hyperparameter tuning

Model Selection

Model selection adalah proses memilih model terbaik dari beberapa kandidat berdasarkan performa evaluasi.

Faktor yang dipertimbangkan:

  • Nilai metrik evaluasi
  • Stabilitas hasil
  • Kompleksitas model
  • Waktu komputasi

Model dengan akurasi tertinggi belum tentu terbaik jika overfitting.

Error Analysis

Error analysis membantu memahami mengapa model salah.

Langkah-langkah:

  • Analisis confusion matrix
  • Lihat data yang sering salah prediksi
  • Identifikasi pola error
  • Perbaiki fitur atau data

Best Practices dalam Training & Evaluasi

  • Gunakan data validation
  • Jangan evaluasi di data training
  • Gunakan cross-validation
  • Monitor overfitting & underfitting
  • Lakukan hyperparameter tuning
  • Simpan model terbaik
  • Dokumentasikan hasil evaluasi

Kesimpulan

Model training dan evaluasi adalah inti dari machine learning.
Tanpa training yang tepat dan evaluasi yang benar, model tidak akan dapat digunakan secara andal di dunia nyata.

Dengan memahami proses training, metrik evaluasi, dan teknik validasi, kita dapat membangun model yang:

  • akurat,
  • stabil,
  • dan mampu melakukan generalisasi dengan baik.