Apa itu data reduction (reduksi data)?
Reduksi data mengurangi jumlah kapasitas yang diperlukan untuk menyimpan data. Reduksi data dapat meningkatkan efisiensi penyimpanan dan mengurangi biaya.
Reduksi data dapat dicapai dengan beberapa cara. Jenis utama dari reduksi data meliputi deduplikasi data, kompresi, dan penyimpanan satu instance (single-instance storage). Deduplikasi data, juga dikenal sebagai data dedupe, menghilangkan segmen data yang redundan dalam sistem penyimpanan. Segmen yang berulang hanya disimpan sekali dan digunakan kembali setiap kali ada permintaan untuk mengakses data tersebut. Deduplikasi lebih rinci dibandingkan penyimpanan satu instance.
Penyimpanan satu instance menemukan file seperti lampiran email yang dikirim ke banyak orang dan hanya menyimpan satu salinan file tersebut. Seperti halnya deduplikasi, penyimpanan satu instance menggantikan duplikat dengan pointer ke satu salinan yang disimpan.
Beberapa array penyimpanan melacak blok mana yang paling banyak dibagikan. Blok-blok yang paling sering digunakan oleh banyak file dapat dipindahkan ke cache berbasis memori atau penyimpanan flash agar dapat dibaca seefisien mungkin.
Kompresi data juga bekerja pada tingkat file. Kompresi dilakukan secara bawaan dalam sistem penyimpanan menggunakan algoritma atau formula yang dirancang untuk mengidentifikasi dan menghapus bit data yang berulang. Kompresi data secara spesifik merujuk pada metode reduksi data di mana file diperkecil pada tingkat bit.
Kompresi bekerja dengan menggunakan formula atau algoritma untuk mengurangi jumlah bit yang diperlukan untuk merepresentasikan data. Ini biasanya dilakukan dengan menggantikan rangkaian bit yang berulang dengan rangkaian bit yang lebih kecil dan menggunakan kamus (dictionary) untuk mengonversinya kembali.
Teknik umum reduksi data
Ada juga cara untuk mengurangi jumlah data yang harus disimpan tanpa mengecilkan ukuran blok dan file. Teknik-teknik ini termasuk thin provisioning dan pengarsipan data.
Thin provisioning secara dinamis mengalokasikan ruang penyimpanan secara fleksibel. Metode ini menjaga ruang yang dicadangkan hanya sedikit di depan ruang yang sebenarnya digunakan, sehingga lebih banyak ruang yang tidak dicadangkan dapat digunakan oleh aplikasi lain.
Sebaliknya, thick provisioning mengalokasikan sejumlah ruang penyimpanan tetap segera setelah disk dibuat, tanpa memperhitungkan apakah seluruh kapasitas tersebut akan terisi atau tidak.
Pengarsipan data juga mengurangi jumlah data dalam sistem penyimpanan, tetapi pendekatannya sangat berbeda. Alih-alih mengurangi data dalam file atau basis data, pengarsipan memindahkan data lama yang jarang diakses dari penyimpanan mahal ke penyimpanan berkapasitas tinggi dengan biaya rendah. Penyimpanan arsip dapat berupa disk, tape, atau cloud.
Reduksi data untuk penyimpanan utama
Meskipun deduplikasi data pertama kali dikembangkan untuk data backup pada penyimpanan sekunder, kini deduplikasi juga dapat diterapkan pada penyimpanan utama. Deduplikasi penyimpanan utama dapat dilakukan sebagai fungsi dari perangkat keras penyimpanan atau sistem operasi (OS). Misalnya, Windows Server 2012 dan Windows Server 2012 R2 memiliki fitur deduplikasi data bawaan. Mesin deduplikasi ini menggunakan deduplikasi pasca-pemrosesan, yang berarti deduplikasi tidak terjadi secara real-time. Sebaliknya, proses terjadwal akan melakukan deduplikasi pada data penyimpanan utama secara berkala.
Deduplikasi penyimpanan utama adalah fitur umum pada banyak sistem penyimpanan all-flash. Karena penyimpanan flash cukup mahal, deduplikasi digunakan untuk memaksimalkan kapasitas penyimpanan flash. Selain itu, karena penyimpanan flash menawarkan performa tinggi, overhead yang dihasilkan dari proses deduplikasi memiliki dampak yang lebih kecil dibandingkan pada sistem berbasis disk.