Apache Spark adalah framework cluster-computing free dan open-source yang digunakan untuk analitik, machine learning, dan pemrosesan grafik pada volume data yang besar. Spark hadir dengan 80+ operator tingkat tinggi yang memungkinkan Anda membangun aplikasi paralel dan menggunakannya secara interaktif dari shell Scala, Python, R, dan SQL.
Spark adalah mesin pengolah data yang cepat dan cepat dalam memori yang dirancang khusus untuk ilmu data. Spark menyediakan serangkaian fitur yang kaya termasuk, Kecepatan, Toleransi kesalahan, pemrosesan streams secara real time, komputasi dalam memori, analitik Lanjutan dan banyak lagi.
Dalam tutorial ini, kami akan menunjukkan kepada Anda bagaimana menginstal Apache Spark di Debian 10 server.
Prasyarat
- Sistem yang menjalankan sistem Debian 10 dengan RAM 2GB.
- Masuk sebagai user non-root dengan hak sudo.
Sebelum Mulai
Perbarui paket sistem operasi Anda (software). Ini adalah langkah pertama yang penting karena memastikan Anda memiliki pembaruan terbaru dan perbaikan keamanan untuk paket perangkat lunak default sistem operasi Anda:
sudo apt update && sudo apt upgrade -y
Setelah server diperbarui, restart sistem Anda untuk menerapkan semua perubahan
Install Java
Apache Spark ditulis dalam bahasa Java. Jadi Anda perlu menginstal Java di sistem. Secara default, versi terbaru Java tersedia di repositori default Debian 10. Anda dapat menginstalnya menggunakan perintah berikut:
apt-get install default-jdk -y
Setelah menginstal Java, verifikasi versi Java yang diinstal menggunakan perintah berikut:
java --version
Anda akan mendapatkan output kurang lebih seperti berikut:
openjdk 11.0.5 2019-10-15 OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1) OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)
Download Apache Spark
Pertama, Download versi terbaru dari Apache Spark dari situs resminya. Pada saat menulis artikel ini, versi terbaru dari Apache Spark adalah 3.0
. Pertama ubah direktori ke direktori /opt
dan download Apache Spark menggunakan perintah wget
:
cd /opt
wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
Setelah download selesai, ekstrak file yang diunduh menggunakan perintah berikut:
tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz
Selanjutnya, ganti nama direktori yang telah di extract dengan perintah mv
menjadi spark
seperti yang ditunjukkan di bawah ini:
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
Selanjutnya, Anda perlu mengatur environment untuk Spark. Anda dapat melakukannya dengan mengedit file ~/.bashrc
nano ~/.bashrc
Tambahkan baris berikut di akhir file:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Simpan dan tutup file setelah Anda selesai. Kemudian, aktifkan environment dengan perintah source
:
source ~/.bashrc
Start Master Server
Anda sekarang dapat memulai Master server menggunakan perintah berikut:
start-master.sh
output kurang lebih seperti berikut
starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out
Secara default, Apache Spark listen pada port 8080. Kita dapat memverifikasinya dengan perintah berikut:
netstat -ant | grep 8080
Output:
tcp6 0 0 :::8080 :::* LISTEN
Sekarang, buka web browser dan ketik URL http://server-ip:8080. Anda akan melihat halaman berikut
Harap catat Spark URL “spark://debian10:7077” dari gambar di atas. Ini akan digunakan untuk memulai proses untuk Spark worker.
Mulai Spark worker.
Untuk dapat memulai proses Spark worker, jalankan perintah berikut:
start-slave.sh spark://debian10:7077
output kurang lebih seperti berikut:
starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out
Akses Spark Shell
Spark Shell adalah lingkungan interaktif yang menyediakan cara sederhana untuk mempelajari API dan menganalisis data secara interaktif. Anda dapat mengakses Spark shell dengan perintah berikut:
spark-shell
output :
WARNING: An illegal reflective access operation has occurred WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int) WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations WARNING: All illegal access operations will be denied in a future release 19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Spark context Web UI available at http://debian10:4040 Spark context available as 'sc' (master = local[*], app id = local-1577634806690). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.0.0-preview2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5) Type in expressions to have them evaluated. Type :help for more information. scala>
Dari sini, Anda dapat mempelajari cara memanfaatkan Apache Spark secara cepat dan mudah.
Jika ingin menghentikan Spark Master dan server Slave, jalankan perintah berikut:
stop-slave.sh
stop-master.sh
Untuk saat ini, Anda telah berhasil menginstal Apache Spark di server Debian 10. Untuk informasi lebih lanjut, Anda dapat merujuk dokumentasi resmi Spark di Spark Doc.