Apa itu data berisik (noisy data)?
Data berisik adalah kumpulan data yang mengandung informasi tambahan yang tidak bermakna. Hampir semua kumpulan data mengandung sejumlah gangguan yang tidak diinginkan. Data berisik dapat disaring dan diproses menjadi kumpulan data berkualitas lebih tinggi. Istilah ini juga sering digunakan sebagai sinonim untuk data yang rusak atau data yang tidak dapat dipahami dan diinterpretasikan dengan benar oleh mesin, seperti data tidak terstruktur.
Untuk menggambarkan efek dari data berisik, bayangkan mencoba mendengarkan percakapan di ruangan yang ramai. Otak manusia sangat baik dalam menyaring percakapan lain agar dapat fokus pada satu pembicaraan, tetapi jika ruangan terlalu bising, menjadi sulit atau bahkan mustahil untuk mengikuti percakapan tersebut. Begitu pula dengan data—semakin banyak informasi tambahan dalam kumpulan data, semakin sulit menemukan pola yang dicari.
Data berisik dapat meningkatkan kebutuhan ruang penyimpanan secara tidak perlu dan berdampak negatif pada hasil analisis data mining. Analisis statistik dapat memanfaatkan informasi dari data historis untuk menyaring data berisik dan mempermudah proses data mining.
Algoritma machine learning sangat mahir dalam menyaring data berisik untuk menemukan pola yang tersembunyi. Namun, jika data memiliki kualitas rendah atau mengandung komponen yang menyesatkan, algoritma dapat salah menginterpretasikan pola tersebut, yang dapat menyebabkan masalah garbage in, garbage out.
Penyebab data berisik bisa berasal dari kegagalan perangkat keras, kesalahan pemrograman, serta input acak dari sistem pengenalan suara atau pengenalan karakter optik (OCR). Kesalahan ejaan, singkatan industri, dan bahasa gaul juga dapat menghambat pemrosesan data oleh mesin. Selain itu, variasi alami dalam sensor dan pengukuran dapat menambahkan noise ke dalam data.
Jenis-jenis data berisik
Dalam bidang data science dan analisis statistik, belum ada klasifikasi resmi untuk data berisik. Namun, secara umum, data berisik dapat dikategorikan sebagai berikut:
- Noise acak: Informasi tambahan yang tidak memiliki korelasi dengan data utama dan muncul secara tidak terduga, seperti ketidakakuratan pengukuran.
- Data yang salah klasifikasi: Informasi yang salah label atau salah tempat akibat kesalahan manusia atau kesalahan saat impor data.
- Variabel yang tidak terkontrol: Faktor tambahan yang mempengaruhi data tetapi tidak diperhitungkan, menyebabkan hasil yang tidak akurat.
- Data berlebihan: Informasi yang tidak relevan dengan analisis utama, sehingga membuat sulit menemukan pola yang diinginkan.
Cara membersihkan data berisik
Ada berbagai metode untuk menghapus noise dan menghasilkan data yang lebih bersih, termasuk:
- Filtering: Menyaring data yang tidak diinginkan, misalnya dengan menghapus outlier atau data yang berada jauh dari rata-rata.
- Data binning: Mengelompokkan data ke dalam kategori tertentu untuk mengurangi variasi acak.
- Regresi linear: Metode matematika untuk menentukan hubungan antara variabel data guna mengidentifikasi pola utama.
Dengan membersihkan data berisik, organisasi dapat meningkatkan kualitas analisis data, memperbaiki hasil model machine learning, dan membuat keputusan yang lebih akurat.