Apa itu Over Sampling dan Under Sampling?
Over sampling dan under sampling adalah teknik dalam data mining dan data analytics yang digunakan untuk menyeimbangkan kelas data yang tidak merata agar menghasilkan data set yang lebih seimbang. Kedua teknik ini juga sering disebut sebagai resampling.
Teknik ini sering digunakan untuk membuat data lebih mewakili kondisi dunia nyata. Misalnya, penyesuaian data dapat dilakukan agar materi pelatihan untuk AI dan machine learning algorithms lebih seimbang.
Salah satu bidang yang sering menggunakan teknik over sampling dan under sampling adalah riset survei. Misalnya, sampel populasi dalam survei mungkin tidak seimbang dalam hal jenis peserta, yang bisa membuat hasilnya kurang mencerminkan populasi yang lebih besar. Dengan over atau under sampling, proporsi karakteristik yang disurvei, seperti gender, kelompok usia, atau etnis, bisa disesuaikan agar lebih representatif terhadap populasi secara keseluruhan.
Perbedaan Over Sampling dan Under Sampling
Jika suatu kelas data menjadi kelompok minoritas yang kurang terwakili dalam sampel data, teknik over sampling dapat digunakan untuk menduplikasi data tersebut sehingga jumlahnya lebih seimbang. Over sampling dilakukan ketika jumlah data yang dikumpulkan masih kurang. Salah satu teknik over sampling yang populer adalah SMOTE (Synthetic Minority Over-sampling Technique), yang menciptakan sampel sintetis dengan mengambil karakteristik secara acak dari data kelas minoritas yang sudah ada.
Di sisi lain, jika suatu kelas data justru mendominasi dataset, teknik under sampling bisa digunakan untuk mengurangi jumlahnya sehingga lebih seimbang dengan kelas minoritas. Under sampling dilakukan saat jumlah data yang terkumpul sudah lebih dari cukup. Metode umum dalam under sampling meliputi Cluster Centroids dan Tomek Links, yang berfokus pada karakteristik yang tumpang tindih dalam dataset untuk mengurangi jumlah data mayoritas.
Baik dalam over sampling maupun under sampling, menduplikasi data secara langsung jarang disarankan. Secara umum, over sampling lebih direkomendasikan karena under sampling bisa menyebabkan hilangnya informasi penting. Namun, under sampling bisa berguna jika dataset terlalu besar, sehingga membantu alat data mining tetap bekerja secara efisien tanpa terbebani oleh jumlah data yang berlebihan.