Pada tutorial kali ini kita akan menggunakan Spark untuk hal yang sederhana yaitu word count atau menghitung kata. Seperti misalnya "saya ingin makan pizza dan saya ingin pizza dengan pinggiran keju", akan memberi keluaran:
Secara garis besar, input awal akan berupa paragraf atau kalimat. Kemudian kalimat tersebut dipecah menjadi kumpulan kata. Misalkan"saya ingin makan pizza dan saya ingin pizza dengan pinggiran keju" akan menjadi kumpulan kata [saya, ingin, makan, pizza, dan, saya, ingin, pizza, dengan, pinggiran, keju]
Lalu, tiap kata diberi angka satu untuk inisialisasi awal bahwa kata tersebut muncul satu kali.
Terakhir, kata yang sama akan dijumlahkan angkanya sehingga akan didapatkan banyak kata yang muncul seperti yang telah dibahas di paragraf awal.
Untuk implementasi pada Spark dapat menggunakan RDD atau Dataframe. Kode program yang digunakan dalam contoh menggunakan Python 3.6.3 dengan Spark 2.2.0. Input awal yang digunakan terlihat pada potongan kode program dibawah.
Kode program menggunakan RDD
Output yang menggunakan RDD akan berupa kumpulan tuple berikut:
Kode program menggunakan Dataframe
Output yang menggunakan Dataframe masih dalam bentuk dataframe
Kode program lengkapnya dapat dilihat pada halaman github word_count.py
Kalau ada yang bingung, langsung tanya saja ya :)
Semoga bermanfaat :)
| saya: 2 ingin: 2 makan: 1 pizza: 2 |
dan:1 dengan: 1 pinggiran: 1 keju: 1 |
Secara garis besar, input awal akan berupa paragraf atau kalimat. Kemudian kalimat tersebut dipecah menjadi kumpulan kata. Misalkan"saya ingin makan pizza dan saya ingin pizza dengan pinggiran keju" akan menjadi kumpulan kata [saya, ingin, makan, pizza, dan, saya, ingin, pizza, dengan, pinggiran, keju]
Lalu, tiap kata diberi angka satu untuk inisialisasi awal bahwa kata tersebut muncul satu kali.
| (saya, 1), (ingin, 1), (makan, 1), (pizza, 1), (dan, 1), (saya, 1), |
(ingin, 1), (pizza, 1), (dengan, 1), (pinggiran, 1), (keju, 1) |
Untuk implementasi pada Spark dapat menggunakan RDD atau Dataframe. Kode program yang digunakan dalam contoh menggunakan Python 3.6.3 dengan Spark 2.2.0. Input awal yang digunakan terlihat pada potongan kode program dibawah.
Kode program menggunakan RDD
Output yang menggunakan RDD akan berupa kumpulan tuple berikut:
Kode program menggunakan Dataframe
Output yang menggunakan Dataframe masih dalam bentuk dataframe
Kode program lengkapnya dapat dilihat pada halaman github word_count.py
Kalau ada yang bingung, langsung tanya saja ya :)
Semoga bermanfaat :)
Word Count menggunakan Spark
Reviewed by juwita
on
9:55 AM
Rating:
Reviewed by juwita
on
9:55 AM
Rating:





No comments: