Galat generalisasi

Untuk aplikasi Pemelajaran terarah dalam pemelajaran mesin dan teori pemelajaran statistik, galat generalisasi atau kesalahan generalisasi^[1](bahasa Inggris: generalization error), juga dikenal sebagai galat luar sampel (out-off-sample error)^[2] atau risiko (risk) adalah suatu ukuran sejauh mana suatu algoritma mampu memprediksi nilai dengan akurat untuk data yang sebelumnya tidak terlihat. Karena algoritma pemelajaran dievaluasi pada data sampel yang terbatas, proses evaluasi algoritma pemelajaran dapat dipengaruhi oleh galat pengambilan sampel. Oleh karena itu, pengukuran kesalahan prediksi saat ini mungkin tidak memberikan banyak informasi tentang kemampuan prediksi pada data baru. Galat generalisasi dapat diminimalkan dengan menghindari overfitting dalam algoritma pemelajaran. Kinerja algoritma pemelajaran mesin direpresentasikan oleh grafik yang menunjukkan nilai estimasi galat generalisasi selama proses pemelajaran yang disebut sebagai kurva pembelajaran.

Definisi

Dalam masalah pembelajaran,tujuannya adalah mengembangkan fungsi $f_{n}({\vec {x}})$ yang memprediksi nilai keluaran $y$ untuk setiap data masukan ${\vec {x}}$ . Subskrip $n$ menunjukkan bahwa fungsi $f_{n}$ dikembangkan berdasarkan kumpulan data sebanyak $n$ titik data. Galat generalisasi atau kerugian (expected loss) yang diharapkan atau risiko (risk) $I[f]$ dari suatu fungsi tertentu $f$ pada semua nilai mungkin dari ${\vec {x}}$ dan $y$ adalah nilai harapan dari fungsi kerugian $V(f)$ :^[1]

I[f]=\int _{X\times Y}V(f({\vec {x}}),y)\rho ({\vec {x}},y)d{\vec {x}}dy,

di mana $\rho ({\vec {x}},y)$ adalah distribusi probabilitas bersama yang tidak diketahui untuk ${\vec {x}}$ dan $y$ .

Tanpa mengetahui distribusi probabilitas bersama $\rho$ , mustahil untuk menghitung $I[f]$ . Sebagai gantinya, kita dapat menghitung galat pada data sampel, yang disebut sebagai galat empiris (atau risiko empiris). Diberikan $n$ titik data, galat empiris dari suatu fungsi kandidat $f$ adalah:

P_{G}=P(I[f_{n}]-I_{n}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}

Sebuah algoritma dikatakan menggeneralisasi jika:

\lim _{n\rightarrow \infty }I[f]-I_{n}[f]=0

Yang sangat penting adalah galat generalisasi $I[f_{n}]$ dari fungsi yang tergantung pada data $f_{n}$ yang ditemukan oleh suatu algoritma pembelajaran berdasarkan sampel. Sekali lagi, untuk distribusi probabilitas yang tidak diketahui, $I[f_{n}]$ tidak dapat dihitung. Sebagai gantinya, tujuan dari banyak masalah dalam teori pembelajaran statistik adalah untuk membatasi atau menggambarkan perbedaan antara galat generalisasi dan galat empiris secara probabilitas:

I_{n}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

Artinya, tujuannya adalah untuk menggambarkan probabilitas $1-\delta _{n}$ bahwa galat generalisasi kurang dari galat empiris ditambah dengan batas galat $\epsilon$ ((umumnya tergantung pada $\delta$ dan $n$ ). Secara khusus, jika suatu algoritma bersifat simetris (urutan input tidak memengaruhi hasil), memiliki kerugian terbatas, dan memenuhi dua kondisi stabilitas, maka algoritma tersebut akan menggeneralisasi. Kondisi stabilitas pertama, stabilitas validasi silang tinggalkan satu (leave-one-out cross-validation), menyatakan bahwa untuk menjadi stabil, kesalahan prediksi untuk setiap titik data ketika validasi silang tinggalkan satu digunakan harus konvergen ke nol saat $n\rightarrow \infty$ . Kondisi kedua, stabilitas harapan kesalahan tinggalkan satu (juga dikenal sebagai stabilitas hipotesis jika beroperasi dalam norma $L_{1}$ terpenuhi jika prediksi pada titik data yang ditinggalkan tidak berubah ketika satu titik data dihapus dari himpunan data latih.^[3]

Kondisi ini dapat diformulasikan sebagai

Leave-one-out cross-validation Stability

Suatu algoritma $L$ dikatakan memiliki stabilitas $CVloo$ , jikalau untuk setiap $n$ memiliki suatu $\beta _{CV}^{(n)}$ dan $\delta _{CV}^{(n)}$ yang sedemikian sehingga:

\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}

dan $\beta _{CV}^{(n)}$ dan $\delta _{CV}^{(n)}$ menuju nol sebagaimana $n$ menuju takhingga.^[3]

Expected-leave-one-out error Stability

Sebuah algoritma $L$ memiliki stabilitas $Eloo_{err}$ jikalau untuk setiao $n$ memiliki suatu $\beta _{EL}^{m}$ dan $\delta _{EL}^{m}$ sedemikian sehingga:

\forall i\in \{1,...,n\},\mathbb {P} _{S}\left\{\left|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V\left(f_{S^{i}},z_{i}\right)\right|\leq \beta _{EL}^{(n)}\right\}\geq 1-\delta _{EL}^{(n)}

dengan $\beta _{EL}^{(n)}$ dan $\delta _{EL}^{(n)}$ menuju nol untuk $n\rightarrow \infty$ .

Untuk leave-one-out stability di norma $L_{1}$ , hal ini sama dengan stabilitas hipotesis:

\mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{i}},z)|]\leq \beta _{H}^{(n)}

dengan $\beta _{H}^{(n)}$ menuju nol sebagaimana $n$ menuju takhingga.^[3]

Algoritma yang terbukti stabil

Sejumlah algoritma telah terbukti stabil dan sebagai hasilnya memiliki batasan pada galat generalisasinya. Daftar algoritma-algoritma ini dan makalah-makalah yang membuktikan stabilitasnya tersedia di sini.

Relasi terhadap overfitting

Gambar ini menggambarkan hubungan antara overfitting dan galat generalisasi I[*f_n*] - *I_S*[*f_n*]. Titik-titik data dihasilkan dari hubungan y = x dengan penambahan noise putih pada nilai y. Di kolom kiri, satu set titik pelatihan ditampilkan dalam warna biru. Fungsi polinomial urutan ketujuh diestimasi pada data pelatihan. Di kolom kanan, fungsi tersebut diuji pada data yang diambil dari distribusi probabilitas bersama yang mendasarinya dari x dan y. Pada baris atas, fungsi tersebut diestimasi pada kumpulan data sampel sebanyak 10 titik data. Pada baris bawah, fungsi tersebut diestimasi pada kumpulan data sampel sebanyak 100 titik data. Seperti yang dapat kita lihat, untuk ukuran sampel yang kecil dan fungsi yang kompleks, galat pada set latih itu kecil, tetapi kesalahan pada distribusi data yang mendasarinya besar dan kita telah *overfitting* data tersebut. Akibatnya, galat generalisasinya besar. Seiring dengan peningkatan jumlah titik sampel, kesalahan prediksi pada data latih dan uji konvergen, dan galat generalisasi menuju 0..

Konsep galat generalisasi dan overfitting saling berkaitan erat. Overfitting terjadi ketika fungsi yang dipelajari $f_{S}$ menjadi sensitif terhadap noise dalam sampel. Akibatnya, fungsi tersebut akan berperforma baik pada himpunan latih, tetapi tidak akan berperforma baik pada data lain dari distribusi probabilitas bersama $x$ dan $y$ . Oleh karena itu, semakin besar overfitting, semakin besar pula galat generalisasi.

Jumlah overfitting dapat diuji menggunakan metode validasi silang (cross-validation),yang membagi sampel menjadi simulasi sampel latih dan sampel uji. Model kemudian dilatih pada sampel latih dan dievaluasi pada sampel uji. Sampel uji sebelumnya tidak terlihat oleh algoritma dan mewakili sampel acak dari distribusi probabilitas bersamaf $x$ dan $y$ . Sampel uji ini memungkinkan kita untuk mendekati kesalahan yang diharapkan dan sebagai hasilnya mendekati suatu bentuk galat generalisasi tertentu.

Banyak algoritma yang ada untuk mencegah overfitting. Algoritma minimisasi dapat memberikan penalti pada fungsi yang lebih kompleks (dikenal sebagai regularisasi Tikhonov), atau ruang hipotesis dapat dibatasi, baik secara eksplisit dalam bentuk fungsi atau dengan menambahkan batasan pada fungsi minimisasi (regularisasi Ivanov).

Pendekatan untuk menemukan fungsi yang tidak overfit bertentangan dengan tujuan menemukan fungsi yang cukup kompleks untuk menangkap karakteristik khusus dari data. Ini dikenal sebagai bias-variance tradeoff. Menjaga fungsi untuk tetap sederhana untuk menghindari overfitting dapat memperkenalkan bias dalam prediksi yang dihasilkan, sementara memungkinkannya menjadi lebih kompleks dapat menyebabkan overfitting dan variasi yang lebih tinggi dalam prediksi. Tidak mungkin untuk meminimalkan keduanya secara bersamaan.

Referensi

1 2 Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press
↑ Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
1 2 3 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z.

Bacaan lanjutan

Olivier, Bousquet; Luxburg, Ulrike; Rätsch, Gunnar, ed. (2004). Advanced Lectures on Machine Learning. Lecture Notes in Computer Science. Vol. 3176. hlm. 169–207. doi:10.1007/b100712. ISBN 978-3-540-23122-6. Diakses tanggal 10 December 2022.
Bousquet, Olivier; Elisseeff, Andr´e (1 March 2002). "Stability and Generalization". The Journal of Machine Learning Research. 2: 499–526. doi:10.1162/153244302760200704. Diakses tanggal 10 December 2022.
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press.
Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847–854.
White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.

[Mohri,_M._20182-1] 1 2 Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press

[2] Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064

[MukherjeeEtAl-3] 1 2 3 Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization" (PDF). Adv. Comput. Math. 25 (1–3): 161–193. doi:10.1007/s10444-004-7634-z.

[1]

[2]

[3]