Amazon Redshift Spectrum adalah fitur dalam layanan Amazon Web ServicesRedshift untuk penyimpanan data yang memungkinkan analis data melakukan analisis cepat dan kompleks pada objek yang disimpan di cloud AWS.

Dengan Redshift Spectrum, seorang analis dapat menjalankan kueri SQL pada data yang disimpan dalam bucket Amazon S3. Ini dapat menghemat waktu dan biaya karena menghilangkan kebutuhan untuk memindahkan data dari layanan penyimpanan ke basis data, sehingga kueri dapat langsung dijalankan pada data di dalam bucket S3. Redshift Spectrum juga memperluas cakupan kueri karena dapat melampaui node gudang data Redshift pengguna dan menjangkau volume besar data lake tidak terstruktur di S3.

Bagaimana Redshift Spectrum bekerja

Redshift Spectrum membagi kueri pengguna menjadi subset yang difilter dan dijalankan secara bersamaan. Permintaan tersebut didistribusikan ke ribuan node yang dikelola AWS untuk menjaga kecepatan kueri dan kinerja yang konsisten. Redshift Spectrum dapat diskalakan untuk menjalankan kueri pada lebih dari satu eksabita data, dan setelah data dari S3 dikumpulkan, data tersebut dikirim kembali ke cluster Redshift lokal untuk pemrosesan akhir.

Redshift Spectrum memerlukan cluster Redshift dan klien SQL yang terhubung. Beberapa cluster dapat mengakses kumpulan data S3 yang sama secara bersamaan, tetapi kueri hanya dapat dilakukan pada data yang disimpan di region AWS yang sama.

Redshift Spectrum dapat digunakan bersama dengan layanan komputasi AWS lain yang memiliki akses langsung ke S3, termasuk Amazon Athena, serta Amazon Elastic Map Reduce untuk Apache Spark, Apache Hive, dan Presto.

Redshift Spectrum vs. Athena

Amazon Athena mirip dengan Redshift Spectrum, meskipun kedua layanan ini biasanya digunakan untuk kebutuhan yang berbeda. Seorang analis yang sudah bekerja dengan Redshift akan mendapatkan manfaat lebih dari Redshift Spectrum karena dapat dengan cepat mengakses data dalam cluster dan memperluas jangkauan ke tabel eksternal di S3 yang jarang diakses. Redshift Spectrum juga lebih cocok untuk kueri cepat dan kompleks pada beberapa kumpulan data.

Sebaliknya, Athena adalah cara yang lebih sederhana untuk menjalankan kueri interaktif dan ad hoc pada data yang disimpan di S3. Layanan ini tidak memerlukan manajemen cluster, dan seorang analis hanya perlu mendefinisikan tabel untuk membuat kueri SQL standar.

Penyedia cloud lain juga menawarkan layanan serupa, seperti Google BigQuery dan Microsoft Azure SQL Data Warehouse.

Harga

Amazon Redshift Spectrum mengikuti model penagihan berdasarkan penggunaan, yaitu $5 per terabyte data yang diambil dari S3, dengan minimum kueri 10 MB. AWS merekomendasikan pelanggan untuk mengompresi data atau menyimpannya dalam format berbasis kolom untuk menghemat biaya. Biaya tersebut tidak termasuk biaya cluster Redshift dan penyimpanan S3.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *