Tutorial Install dan Konfigurasi Apache Hadoop di Ubuntu

Apache Hadoop adalah kumpulan software utilitas open-source yang memfasilitasi penggunaan jaringan di banyak komputer untuk memecahkan masalah yang melibatkan data dan komputasi dalam jumlah besar. Hadoop menyediakan framework untuk penyimpanan terdistribusi dan pemrosesan data besar menggunakan model pemrograman MapReduce.

Awalnya dirancang untuk komputer cluster yang dibangun dari perangkat keras komoditas namun masih merupakan penggunaan umum, dan juga digunakan pada kelompok hardware high-end. Semua modul di Hadoop dirancang dengan asumsi mendasar bahwa kegagalan hardware adalah kejadian umum dan harus ditangani secara otomatis oleh framework itu sendiri.

Apache Hadoop 3.1 memiliki peningkatan yang nyata setiap perbaikan bug lebih dari rilis stabil 3.0 sebelumnya. Versi ini memiliki banyak peningkatan di HDFS dan MapReduce. Tutorial ini akan membantu Anda untuk menginstal dan mengkonfigurasi Hadoop 3.1.2 Single-Node Cluster di Ubuntu 18.04, 16.04 LTS dan Sistem LinuxMint. Artikel ini telah diuji dengan Ubuntu 18.04 LTS.

Langkah 1 – Prasyarat

Java adalah persyaratan utama untuk menjalankan Hadoop pada sistem apa pun, jadi pastikan Anda menginstal Java pada sistem Anda menggunakan perintah berikut.

Step 2 – Create User for Haddop

Kami sarankan untuk membuat akun normal untuk Hadoop berfungsi. Untuk membuat akun menggunakan perintah berikut.

adduser hadoop

Setelah membuat akun, perlu juga untuk mengatur ssh berbasis kunci ke akun sendiri. Untuk melakukan ini jalankan perintah berikut.

su - hadoop

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 0600 ~/.ssh/authorized_keys

Sekarang, SSH ke localhost dengan user Hadoop. Ini seharusnya tidak meminta kata sandi, tetapi ketika ini adalah koneksi untuk pertama kali, sistem akan meminta untuk menambahkan RSA ke daftar host yang dikenal.

ssh localhost
exit

Langkah 3 – Unduh Arsip Source Hadoop

Pada langkah ini, unduh file arsip source hadoop 3.1 menggunakan perintah di bawah ini. Anda juga dapat memilih download mirror untuk mencari server terdekat dengan Anda untuk meningkatkan kecepatan download. Yah meskipun Hanya ada dua, yaitu eropa dan usa, jadi kita pilih us. download source Hadoop mengunakan perintah wget.

cd ~
wget https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz

tar xzf hadoop-3.1.2.tar.gz

mv hadoop-3.1.2 hadoop

Langkah 4 – Setup Hadoop Pseudo-Distributed Mode

4.1. Setup Variabel Environment Hadoop

Atur variabel lingkungan yang digunakan oleh Hadoop. Edit file ~/.bashrc dan tambahkan nilai berikut di akhir file.

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Kemudian, setelah selesai save dan tutup file. dan jalankan perintah berikut agar perubahan segera diterapkan.

source ~/.bashrc

Sekarang edit $HADOOP_HOME/etc/hadoop/hadoop-env.sh file dan set variabel environment JAVA_HOME. Ubah jalur JAVA sesuai pengaturan instalasi di sistem Anda. Jalur ini dapat bervariasi sesuai versi sistem operasi dan sumber instalasi Anda. Jadi pastikan Anda menggunakan jalur yang benar.

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

kemudian tambahkan entri berikut ini.

export JAVA_HOME=/usr/lib/jvm/java-11-oracle

4.2. Setup Hadoop Configuration Files

Hadoop memiliki banyak file konfigurasi, yang perlu dikonfigurasi sesuai persyaratan infrastruktur Hadoop Anda. Mari kita mulai dengan konfigurasi dengan pengaturan dasar node tunggal Hadoop. pertama, navigasikan ke lokasi di bawah ini

cd $HADOOP_HOME/etc/hadoop

Edit core-site.xml

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Edit hdfs-site.xml

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Edit mapred-site.xml

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Edit yarn-site.xml

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

4.3. Format Namenode

Sekarang format namenode menggunakan perintah berikut, pastikan direktori Storage adalah

hdfs namenode -format

Ini adalah Sample output :

WARNING: /home/hadoop/hadoop/logs does not exist. Creating.
2018-05-02 17:52:09,678 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = vmnode/127.0.1.1
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 3.1.2
...
...
...
2018-05-02 17:52:13,717 INFO common.Storage: Storage directory /home/hadoop/hadoopdata/hdfs/namenode has been successfully formatted.
2018-05-02 17:52:13,806 INFO namenode.FSImageFormatProtobuf: Saving image file /home/hadoop/hadoopdata/hdfs/namenode/current/fsimage.ckpt_0000000000000000000 using no compression
2018-05-02 17:52:14,161 INFO namenode.FSImageFormatProtobuf: Image file /home/hadoop/hadoopdata/hdfs/namenode/current/fsimage.ckpt_0000000000000000000 of size 391 bytes saved in 0 seconds .
2018-05-02 17:52:14,224 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2018-05-02 17:52:14,282 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at vmnode/127.0.1.1
************************************************************/

Langkah 5 – Jalankan Cluster Hadoop

Mari mulai cluster Hadoop Anda menggunakan skrip yang disediakan oleh Hadoop. Cukup navigasikan ke direktori $HADOOP_HOME/sbin dan laksanakan skrip satu per satu.

cd $HADOOP_HOME/sbin/

Kemudian eksekusi skrip start-dfs.sh.

./start-dfs.sh

Kemudian eksekusi skrip start-yarn.sh.

./start-yarn.sh

Langkah 6 – Akses Layanan Hadoop di Browser

Hadoop NameNode dimulai pada port default 9870. Akses server Anda pada port 9870 di browser web favorit Anda.

http://ip-atau-domain:9870/

Sekarang akses port 8042 untuk mendapatkan informasi tentang cluster dan semua aplikasi

http://ip-atau-domain:8042/

Akses port 9864 untuk mendapatkan detail tentang node Hadoop Anda.

Langkah 7 – Uji Pengaturan Hadoop Node

7.1. Buat direktori HDFS diperlukan menggunakan perintah berikut.

bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop

7.2. Salin semua file dari sistem file lokal /var/log/httpd ke file sistem terdistribusi hadoop menggunakan perintah di bawah ini

bin/hdfs dfs -put /var/log/apache2 logs

7.3. Jelajahi sistem file terdistribusi Hadoop dengan membuka URL di bawah ini di browser. Anda akan melihat folder apache2 dalam daftar. Klik pada nama folder untuk membuka dan Anda akan menemukan semua file log di sana.

 http://ip-atau-domain:9870/explorer.html#/user/hadoop/logs/

7.4 – Sekarang salin direktori log untuk sistem file hadoop didistribusikan ke sistem file lokal.

bin/hdfs dfs -get logs /tmp/logs
ls -l /tmp/logs/

Anda juga dapat memeriksa tutorial ini untuk menjalankan wordcount mapreduce contoh pekerjaan menggunakan baris perintah.