Apa itu Arsitektur streaming data?

Apa Itu Arsitektur Streaming Data?

Arsitektur streaming data adalah kerangka kerja teknologi informasi yang berfokus pada pemrosesan data secara langsung (in motion) dan menganggap proses ETL batch sebagai satu peristiwa di antara aliran data yang terus menerus. Arsitektur ini memiliki tiga komponen utama:

Aggregator: Mengumpulkan data dari berbagai sumber, baik dalam bentuk aliran data (event stream) maupun batch file.
Broker: Memastikan data dapat diakses oleh sistem atau aplikasi yang membutuhkannya.
Mesin Analitik: Menganalisis data, menghubungkan nilai-nilai yang berkorelasi, dan menggabungkan berbagai aliran data.

Sistem yang bertugas menerima, mengirim, serta menjalankan pemrosesan data dan analitik real-time disebut stream processor. Karena mendukung konsep event sourcing, arsitektur ini mengurangi kebutuhan akan database bersama. Sebagai gantinya, setiap perubahan dalam status aplikasi disimpan sebagai rangkaian pemicu berbasis event stream processing (ESP), yang bisa direkonstruksi atau dikueri kapan pun dibutuhkan.

Mengapa Streaming Data Semakin Populer?

Peningkatan penggunaan arsitektur streaming data mencerminkan pergeseran dari sistem monolitik ke model yang lebih terdesentralisasi menggunakan microservices. Dibandingkan dengan arsitektur berbasis database tradisional, model ini lebih fleksibel dan mudah diskalakan karena menempatkan pemrosesan data lebih dekat dengan penyimpanannya. Hal ini membantu mengurangi latensi aplikasi serta meningkatkan throughput. Keuntungan lain adalah arsitektur ini mempertimbangkan waktu terjadinya suatu peristiwa, sehingga status aplikasi dapat dengan mudah dipartisi dan didistribusikan ke berbagai instance.

Contoh Penggunaan Arsitektur Streaming Data

Banyak perusahaan besar telah menerapkan arsitektur ini untuk meningkatkan layanan mereka:

Alibaba: Menggunakan Apache Flink untuk memperbarui detail produk dan informasi stok secara real-time.
Netflix: Mengandalkan Flink untuk mendukung mesin rekomendasi mereka.
ING Bank: Menerapkan streaming data untuk mencegah pencurian identitas dan meningkatkan perlindungan terhadap penipuan.

Beberapa platform lain yang mendukung pemrosesan data berbasis aliran dan batch termasuk Apache Spark, Apache Storm, Google Cloud Dataflow, dan AWS Kinesis.

Arsitektur streaming data