Pemelajaran terbimbing atau pemelajaran terarah adalah sebuah paradigma dalam pemelajaran mesin yang mana objek masukan dan nilai keluaran yang diinginkan digunakan untuk melatih suatu model. Data pelatihan diolah sehingga memungkinkan untuk dapat membangun suatu fungsi yang dapat memetakan data baru ke nilai keluaran yang diharapkan. Situasi yang optimal akan memungkinkan algoritma yang digunakan untuk dengan tepat menentukan nilai keluaran pada contoh yang belum pernah dilihat sebelumnya. Untuk mencapai hal ini, diperlukan algoritma pembelajaran untuk dapat menggeneralisasi data latih ke situasi baru dengan cara yang "masuk akal". Kualitas statistik dari suatu algoritma diukur melalui apa yang disebut sebagai kesalahan generalisasi.
Sumber: Lihat artikel asli di Wikipedia
Artikel ini membutuhkan rujukan tambahan agar kualitasnya dapat dipastikan. |
| Bagian dari seri |
| Pemelajaran mesin dan penggalian data |
|---|
Pemelajaran terbimbing atau pemelajaran terarah (bahasa Inggris: supervised learning) adalah sebuah paradigma dalam pemelajaran mesin yang mana objek masukan (seperti vektor dari variabel prediktor) dan nilai keluaran yang diinginkan (disebut juga sebagai sinyal pengarah yang dilabeli manusia atau human-labeled supervisory signal) digunakan untuk melatih suatu model.[1] Data pelatihan (training data) diolah sehingga memungkinkan untuk dapat membangun suatu fungsi yang dapat memetakan data baru ke nilai keluaran yang diharapkan. Situasi yang optimal akan memungkinkan algoritma yang digunakan untuk dengan tepat menentukan nilai keluaran pada contoh yang belum pernah dilihat sebelumnya. Untuk mencapai hal ini, diperlukan algoritma pembelajaran untuk dapat menggeneralisasi data latih ke situasi baru dengan cara yang "masuk akal" (lihat: kecenderungan induktif). Kualitas statistik dari suatu algoritma diukur melalui apa yang disebut sebagai kesalahan generalisasi (generalization error).
Pemelajaran terarah memungkinkan kita untuk mengumpulkan data atau menghasilkan keluaran data berdasarkan dari pengalaman sebelumnya. Hal ini dapat membantu mengoptimalkan kriteria kinerja berdasarkan pengalaman mesin. Pemelajaran terarah juga dapat membantu memecahkan berbagai jenis masalah komputasi dunia nyata.[2]
Sebagai contoh sederhana, jika kita ingin membuat sistem yang mengenali gambar kucing, maka dalam pembelajaran terawasi kita akan memberikan banyak gambar yang sudah diberi label “kucing” atau “bukan kucing” sebagai input‑output, kemudian model dilatih hingga mampu memprediksi label untuk gambar baru yang belum pernah dilihat sebelumnya.[2]
Pada tahun 2006, Caruana, Rich [3] memublikasikan hasil penelitiannya mengenai perbandingan secara empiris pemelajaran terarah dengan adanya Proyek Statlog di tahun 90-an. Mereka membandingakan beberapa pemelajaran terarah seperti Support Vector Machine (SVM), Jaringan Syaraf Tiruan (Artificial Neural Network), regresi logistik, naive bayes, pemelajaran berbasis memori, Random Forest, Decision Tree (Pohon Keputusan), Bagged Trees, Boosted Trees dan Boosted Stumps. Mereka melakukan pengujian performa terhadap efek kalibrasi model melalui Platt Scaling dan Regresi Isotonik. Hal yang perlu diangkat dari kary mereka adalah penggunaan berbagai macam kriteria pengujian performa mesin pemelajar. Setiap algoritma memiliki kekuatan dan kelemahan tersendiri — misalnya SVM efektif untuk klasifikasi margin besar, pohon keputusan mudah diinterpretasikan, jaringan saraf unggul pada data besar dan kompleks. Tidak ada satu algoritma yang secara universal terbaik (No Free Lunch Theorem).[4]
Misalkan kita ingin melatih mesin untuk membantu memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja menuju rumah. Pertama-tama, kita memulai dengan membuat sekumpulan data berlabel. Lalu kita bisa mendefinisikan data masukan dan keluaran sebagai berikut:
Secara naluriah kita mengetahui bahwa jika hari hujan, maka kita akan membutuhkan waktu lebih lama untuk berkendara pulang. Namun, mesin membutuhkan data dan statistik untuk menentukan berapa lama anda dapat sampai di rumah dalam kondisi hujan. Berdasarkan set pelatihan yang berisi lama perjalanan waktu ketika hujan dan lama waktu perjalanan ketika cerah ini, mesin mungkin dapat memahami pola hubungan langsung antara jumlah hujan dan waktu yang diperlukan untuk pulang. Bisa jadi mesin dapat memahami bahwa semakin banyak hujan, semakin lama waktu berkendara untuk kembali ke rumah. Mesin juga dapat melihat pola hubungan antara waktu ketika pulang kerja dan waktu ketika dalam perjalanan. Sebagai contoh, semakin dekat waktu kita pulang dengan jam 6 sore, semakin lama waktu yang kita butuhkan untuk pulang. Mesin juga dapat menemukan beberapa pola hubungan lainnya dalam data latih berlabel seperti: bagaimana pengaruh hujan terhadap cara orang mengemudi, pengaruh hujan dalam perilaku bepergian orang-orang bahwa lebih banyak orang bepergian selama waktu cerah maupun waktu tertentu dalam sehari.
Dalam penerapan pemelajaran terbimbing, terdapat sejumlah aspek penting yang memengaruhi keberhasilan model. Berikut adalah beberapa di antaranya:
1. Trade‑off Bias‑Variance
Salah satu isu klasik adalah keseimbangan antara bias (kesalahan sistematis akibat asumsi model yang terlalu sederhana) dan varians (sensitivitas model terhadap fluktuasi data pelatihan). Model yang sangat fleksibel mampu menyesuaikan diri dengan data pelatihan dengan sangat baik (bias rendah), namun mungkin memiliki varians tinggi — artinya ketika diberikan data pelatihan yang berbeda, model bisa sangat berbeda. Sebaliknya, model yang sangat sederhana (bias tinggi) mungkin terhindar dari varians tinggi tetapi gagal menangkap pola kompleks. Pilihan algoritma dan regularisasi memainkan peran penting dalam menjaga keseimbangan ini.[5]
2. Kompleksitas Fungsi vs. Jumlah Data
Jika fungsi yang ingin dipelajari (“true function”) sangat kompleks — misalnya karena banyak interaksi antar fitur — maka diperlukan banyak data pelatihan dan model yang cukup fleksibel agar bisa belajar dengan baik. Sebaliknya, jika fungsi cukup sederhana, maka model yang terlalu kompleks bisa menimbulkan overfitting (melampaui data pelatihan) dan jumlah data besar mungkin tidak diperlukan.
3. Dimensionalitas Ruang Input
Semakin banyak dimensi fitur (misalnya banyak atribut input), semakin sulit proses pembelajaran dilakukan karena ruang pencarian menjadi sangat luas—fenomena yang sering disebut curse of dimensionality. Fitur yang redundan, sangat berkorelasi, atau tidak relevan harus dihindari atau diolah dengan seleksi fitur atau reduksi dimensi.[2]
4. Noise pada Nilai Target (Label)
Apabila terdapat kesalahan pada label (mis‑labeling) atau output sebenarnya memiliki komponen acak (noise stochastik) atau deterministik (kompleksitas yang tidak dapat dimodelkan), maka model yang terlalu berusaha menyesuaikan diri dengan data pelatihan dapat mengalami overfitting. Oleh karena itu, strategi seperti early stopping, deteksi dan penghapusan data dengan label yang salah, atau regularisasi sering digunakan.[2]
5. Faktor‑faktor Lain
Beberapa faktor tambahan yang perlu diperhatikan:
Meskipun pembelajaran terbimbing adalah paradigme utama, terdapat beberapa generalisasi yang memperluas kerangka ini agar lebih fleksibel dalam praktik:
Generaliasi ini memungkinkan penerapan di tugas‑tugas yang lebih kompleks dibanding klasifikasi/regresi sederhana.[6]
Pemelajaran terbimbing telah diterapkan secara luas di berbagai bidang. Berikut beberapa contoh:
Pengklasifikasian lanskap menggunakan citra satelit (land‑form classification).[6]
Contoh penelitian di Indonesia: satu studi menganalisis algoritma pemelajaran terbimbing untuk klasifikasi ulasan pengguna aplikasi investasi, menggunakan algoritma seperti Naïve Bayes, Random Forest, Logistik Regresi dan Pohon Keputusan, dan memperoleh akurasi tertinggi di sekitar 86,6%.[7]
Kelebihan
Keterbatasan
Dalam beberapa tahun terakhir, berbagai kajian literatur menunjukkan bahwa meskipun pemelajaran terbimbing tetap menjadi andalan untuk banyak tugas prediksi dan klasifikasi, namun terdapat pergeseran ke arah metode hybrid dan generalisasi yang lebih fleksibel. Sebuah tinjauan menunjukkan bahwa tren riset termasuk integrasi antara pemelajaran terbimbing dan pemelajaran tidak terbimbing melalui semi‑supervised learning, self‑supervised learning, serta pemanfaatan transfer learning untuk memperbaiki keterbatasan dari supervised learning dan unsupervised learning.[8]
Selain itu, tantangan baru muncul seperti keperluan interpretabilitas (explainability), keadilan model (fairness), serta efisiensi komputasi dan label. Model yang makin kompleks (termasuk jaringan saraf mendalam/deep learning) menyebabkan isu “kotak hitam” (black‑box) yang mempersulit pemahaman keputusan model oleh manusia. Untuk itu, penelitian tentang Explainable AI (XAI) kian berkembang.[6]
Dari uraian di atas, jelas bahwa pembelajaran terawasi merupakan fondasi penting dalam pengembangan sistem kecerdasan buatan prediktif. Apabila tersedia data berlabel yang memadai, model terbimbing dapat memberikan solusi yang akurat, efisien, dan dapat diandalkan. Namun, dalam banyak situasi nyata, memperoleh data berlabel dalam jumlah besar adalah tantangan praktis (waktu, biaya, keahlian). Oleh karena itu: