Apa Itu De-anonymization?
De-anonymization adalah strategi data mining di mana data anonim dikaitkan dengan sumber data lain untuk mengidentifikasi kembali sumber aslinya.
Bagaimana De-anonymization Bekerja?
Setiap informasi yang membedakan satu sumber data dari yang lain bisa digunakan untuk proses de-anonymization. Meskipun konsep ini sudah ada selama beberapa dekade, istilah ini mulai ramai diperbincangkan pada tahun 2006 ketika Arvind Narayanan dan Vitaly Shmatikov mengikuti kontes yang diselenggarakan oleh Netflix, layanan penyewaan film populer. Mereka menggunakan metode de-anonymization pada data set yang berisi peringkat film anonim dari 500.000 pengguna Netflix dan berhasil mengidentifikasi sejumlah anggota secara spesifik.
Menurut Narayanan dan Shmatikov, proses de-anonymization bisa dilakukan jika data yang digunakan memiliki tiga karakteristik utama: melimpah, rinci, dan relatif stabil dalam berbagai konteks dan rentang waktu.
Risiko Privasi dan De-anonymization
Seiring dengan inisiatif pemerintah untuk membuka akses terhadap data publik, semakin banyak informasi yang tersedia secara online. Data yang dirilis pemerintah sering kali telah melalui proses scrubbing untuk menghasilkan “limited data sets”, di mana informasi yang dapat mengidentifikasi seseorang, seperti nama, alamat, atau nomor jaminan sosial, dihapus atau disamarkan melalui proses data anonymization. Dengan cara ini, pemerintah dapat membagikan data kepada pihak ketiga tanpa harus mendapatkan izin tertulis dari individu terkait.
Data semacam ini sangat berguna, terutama bagi peneliti di bidang kesehatan. Namun, para aktivis privasi khawatir bahwa meskipun data telah disamarkan, jumlahnya yang sangat besar dapat memungkinkan identitas individu tetap bisa ditemukan kembali.