Tahap-tahap K-Means Clustering

Posted on

K-Means Clustering merupakan salah satu metode yang dapat digunakan untuk membagi sejumlah objek ke dalam partisi-partisi berdasarkan kategori-kategori yang ada dengan melihat titik tengah yang diberikan. Peng-cluster-an objek dilihat dari jarak objek dengan titik tengah yang paling dekat. Setelah mengetahui titik tengah terdekat, objek tersebut akan diklasifikasikan sebagai anggota dari kategori tersebut. Berikut ilustrasi dengan mengambil contoh proses K-Means titik-titi objek pada bidang XY.

Awalnya ada sekelompok objek dengan variabel yang berbeda, yang membuat koordinat di bidang XY berbeda satu sama lain. Objek-objek yang ada belum ter-cluster. Objek berwarna merah, hijau dan biru merupakan centroid yang sudah dibagi.

Objek masih terpisah
Objek-objek masih terpisah

Berikutnya adalah mengklasifikasikan objek-objek ke dalam kategori yang ada secara random

Klasifikasi K-Means awal ke dalam kategori-kategori secara random
Klasifikasi K-Means awal ke dalam kategori-kategori secara random

Langkah berikutnya adalah membandingkan objek-objek dengan seluruh centroid yang ada. Masing-masing objek mencari centroid yang paling dekat dengan dirinya dengan mencari selisih koordinat dari objek dengan centroid.

Proses perbandingan objek dengan centroid
Proses perbandingan objek dengan centroid

Setelah seluruh objek dibandingkan, objek akan diklasifikasikan dalam kategori tertentu berdasarkan centroid yang terdekat.

Hasil Clustering Akhir
Hasil clustering akhir

Penjelasan lebih lengkap bisa dilihat di http://en.wikipedia.org/wiki/K-means_clustering.
K-Means dapat diaplikasikan di berbagai bidang. Kali ini dicontohkan aplikasi K-Means dalam proses keputusan pembangunan daerah di sebuah Provinsi dengan melihat data-data dari kota/kabupaten yang ada di provinsi tersebut. Sebelum melakukan K-Means clustering, dibutuhkan data yang menunjukkan status dari kota/kabupaten yang ada. data yang digunakan di sini adalah Data Baseline provinsi Jawa Tengah tahun 2008 yang berbentuk dokumen Microsoft Excel. Di dalam dataset ini ada sekitar 31 sheet yang menunjukkan data di bidang pendidikan pada masing-masing kota.

Dataset yang digunakan
Dataset yang digunakan

Langkah berikutnya adalah melakukan pre-processing dari dataset tersebut. Tahap pre-processing ini digunakan untuk menganalisa data apa saja yang sebenarnya dibutuhkan dalam proses K-Means. Setelah tahap pre-processing, didapatkan dataset yang berisi nama kota, jumlah penduduk, jumlah ruang kelas, dan jumlah guru. Contoh K-Means di sini fokus pada keputusan prioritas pembangunan daerah di bidang pendidikan.

Dataset setelah dilakukan pre-processing
Dataset setelah dilakukan pre-processing

Berikutnya adalah menentukan centroid yang ada. Kemudian dilakukan penghitungan untuk mengidentifikasi centroid terdekat dari masing-masing objek. Rumus yang digunakan cukup sederhana, hanya akumulasi dari selisih objek dengan centroid-centroid yang ada.

Rumus Klasifikasi K-Means
Rumus Klasifikasi K-Means

Kemudian tentukan kategori dari objek berdasarkan variabel-variabel yang ada. Dari hasil klasifikasi objek, tentukan centroid baru dengan mencari rata-rata dari variabel yang masuk pada centroid tersebut. Jika centroid masih belum stabil (berubah-ubah pada tiap iterasi), lakukan iterasi sampai centroid benar-benar stabil (tidak berubah-ubah lagi).

Iterasi 1 K-Means
Iterasi 1 K-Means

Tahap lengkap proses K-Means secara menual dapat didownload di K-Means Data Pendidikan.

Iklan

18 thoughts on “Tahap-tahap K-Means Clustering

    […] Twitter Facebook Pengumpan RSS ← Tahap-tahap K-Means Clustering […]

    arissunjaya said:
    4 Maret 2014 pukul 09:59

    kalau data yang dicluster itu data kualitatif (non numeric) itu gimana ya perhitungannya?

      Hida said:
      24 Agustus 2016 pukul 13:59

      saya mau tanya kalau datanya bukan numeric gimana ya cara menghitung clusternya dan menentukan centroidnya?

      pulung hendro prasyo said:
      1 Maret 2017 pukul 10:41

      perlu melakukan pre-processing terlebih dahulu menggunkan teknik transformasi dari data nominal ke numeric dengan melakukan simbolisasi.

    detiik $ema$a said:
    1 November 2014 pukul 21:55

    nice blog.
    Sangat bermanfaat .
    .

    Panji Nugraha said:
    4 Januari 2015 pukul 00:40

    Makasih banyak nih mas Fadlika, akhirnya kelar skripsi saya… bermanfaat bgt…

      Fadlika Dita Nurjanto responded:
      5 Januari 2015 pukul 07:17

      Selamat atas skripsinya ya.. 🙂

        Nurseha said:
        31 Januari 2015 pukul 00:18

        assalamu’alaikum mba maaf saya mau tanya,rumus menghitung rata – rata nya gimana ya untuk menentukan nilai pusat awal cluster / centroid sebelum perhitungan jarak pusat cluster ?

        adenurhayatihamzah said:
        13 Oktober 2016 pukul 10:03

        maaf pak bisa saya minta contoh perhitungannya… untuk referensi tesis saya.. jika boleh saya minta di email adenurhayatihamzah@gmail.com

        terimakasih pak

    Syaeful F. said:
    16 Maret 2015 pukul 09:20

    apakah jumlah centroid berbanding lurus dengan variabelnya ?

    wawan said:
    27 April 2015 pukul 07:42

    P, G ,r itu keterangan apa mas ?….
    trus dapat nilai tiap centroid dari mana ?…

    ros said:
    2 September 2015 pukul 11:07

    mas saya sedang susun skripsi dan ini sangat membantu, apakah saya bisa bertanya beberapa hal ?
    di file excel milik mas yang k-means prosesing pada kolom Centroid 1 ada nomor 100, 3 dan 3 .

    yang mau saya tanyakan
    dari mana angka tersebut diperoleh ? apakah mas sendiri yang tentukan ?
    apakah bisa konsultasi via email ? *ngarep 😀

    razi said:
    20 November 2015 pukul 22:03
    Arga Yuavy Hertanto said:
    9 Juni 2016 pukul 02:45

    terimakasih, artikel ini sdah memberikan titik terang skripsi saya memakai metode k-means

    Andii Wijanarko said:
    15 Juni 2016 pukul 15:16

    terimakasih .. sangat sangat membantu! 🙂

    Ridho said:
    14 Februari 2017 pukul 17:25

    Saya mau tanya, untuk sumber datanya dapat darimana ya itu ? Thx

    Dottep Andri R said:
    11 Juli 2017 pukul 20:14

    saya mau nanya itu gmana cara mengklasifikasikan hasilnya untuk di input ke pohon keputusannya bang mohon bantunnya saya masih kurang paham dalam mengklasifikasikannya? thk

    […] Tertarik dengan postingan blog Fadlika Dita Nurjanto, tentang Tahap-tahap k-means clustering, dimana beliau menuliskan penjelasan mengenai tahapan-tahap dalam k-means clustering disertai […]

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s