Instalasi Spark pada Windows 10


Untuk instalasi Spark, Spark memerlukan Java versi 7 keatas, Python 2.7 keatas, dan Scala 2.11 keatas.
Pada tutorial ini akan dijelaskan cara instalasi Spark pada Windows 10. Versi Java, Python, dan Scala yang digunakan pada tutorial ini adalah Java 8,  Python 3.6.3, dan Scala 2.12.4.
1. Cek bahwa Java sudah terinstall.
     Jika belum ter-install, installer bisa di dapat pada halaman resmi Java.

2.  Cek bahwa Python sudah ter-install.
      Jika belum ter-install, installer dapat di-download pada halaman resmi Python.

3. Cek bahwa Scala sudah ter-install.
       Jika belum ter-install, installer bisa di dapat pada halaman resmi Scala.

4. Download windows.exe binary pada halaman github https://github.com/steveloughran/winutils. atau halaman ini untuk download secara langsung.

5. Pindahkan winutils.exe pada direktori \hadoop\bin. Misalkan pada C:\apache\hadoop\bin.

6. Download Spark 2.2.0 pada halaman resmi Apache Spark.

7. Extract dan pindahkan hasil extract pada direktori yang diinginkan. Misalkan C:\apache\spark-2.2.0-bin-hadoop2.7. Sehingga dapat dilihat struktur disimpannya Hadoop binary dan Spark seperti berikut:

8. Setelah semua ter-install.Tambahkan beberapa variabel pada Environment Variables
  •  HADOOP_HOME=C:\apache\Hadoop
  • SPARK_HOME=C:\apache\spark-2.2.0-bin-hadoop2.7
  • PATH=%HADOOP_HOME%\bin;%SPARK_HOME%\bin;

9. Kemudian buat direktori C:\tmp\hive.
    Direktori ini adalah nilai default dari pengaturan hive.exec.scratchdir pada Hive yang digunakan oleh Spark.

10. Buka Command Prompt dengan pilihan Run as Administrator. Jalankan perintah untuk memberi permission pada \tmp\hive dengan perintah berikut:
winutils.exe chmod 777 C:\tmp\hive
Jika terdapat error tidak ditemukan MSVCR100.dll, dapat diselesaikan dengan men-download Microsoft Visual C++ Redistributable (sumber: Microsoft TechNet Forum
Download Microsoft Visual C++ Redistributable:
32 bit: https://www.microsoft.com/en-us/download/details.aspx?id=5555
64 bit: https://www.microsoft.com/en-us/download/details.aspx?id=14632

11. Untuk menggunakan pyspark, tambahkan library pyspark pada Python
   pip install pyspark

12. Cek dengan menjalankan:
  • pyspark  untuk menjalankan Spark dengan intepreter bahasa Python 
  • spark-shell  untuk menjalankan Spark dengan intepreter bahasa Scala
  • spark-submit [nama_file]  untuk menjalankan Spark pada file Python atau Scala JAR
Untuk melihat proses yang sedang berjalan dapat mengakses Spark Web UI.
Secara default dapat diakses pada halaman 192.168.1.111:4040 atau bisa dilihat pada log yang muncul.

Sumber dalam Bahasa Inggris:
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-tips-and-tricks-running-spark-windows.html
https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c
Instalasi Spark pada Windows 10 Instalasi Spark pada Windows 10 Reviewed by juwita on 12:28 AM Rating: 5

1 comment:

Powered by Blogger.