Beranda > Algoritma, Data Mining > Perbedaan Algoritma ID3, C4.5, dan J48

Perbedaan Algoritma ID3, C4.5, dan J48

Berdasarkan pertanyaan oleh saudari Tita, yang muncul di tulisan sebelumnya mengenai ID3, C4.5, dan J48. Saya jadi kepikiran untuk menulis mengenai 3 hal tersebut. Untuk kali ini, masih secara umum saja.

ID3

ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3.

Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. Perhatikan ilustrasi berikut (klik untuk memperbesar):

Ilustrasi ID3 - sumber slide kuliah MLK/IF3054/2011

Ilustrasi ID3 - sumber slide kuliah MLK/IF3054/2011

Bisa dilihat, bahwa atribut “patron” membagi 3, dimana hasil pembagiannya cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau merah saja. Memang, untuk cabang “full” tidak satu warna (hijau saja atau merah saja). Tapi, pemilihan atribut patron jelas lebih baik daripada atribut type.

Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakanlah teori informasi. Mungkin di postingan selanjutnya akan saya bahas.

Pada WEKA, ada pilihan untuk menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus bertipe nominal, dan tidak boleh ada yang kosong.

C4.5

Yang jelas, ini bukan merk kaos. C4.5 merupakan pengembangan dari ID3. Beberapa perbedaannya antara lain :

  1. Mampu menangani atribut dengan tipe diskrit atau kontinu.
  2. Mampu menangani atribut yang kosong (missing value)
  3. Bisa memangkas cabang.

Tambahan, C4.5 ini sudah ada penerusnya, yakni C5.

J48

J48 merupakan implementasi C4.5 di WEKA.

Begitulah. Mungkin jika ada yang perlu dikoreksi, atau apa, bisa dikomentari.

sumber :

  1. slide kuliah MLK/IF3054/2011
  2. slide kuliah Allan Neymark (CS157B – Spring 2007)
  1. Tita
    21 Juni 2011 pukul 11:36

    makasih banyak.. sangat membantu..
    tapi masih penasaran dengan penamaan c4.5 dan j48 itu sendiri artinya apa?
    saya uda nyari, g ketemu..
    maaf banyak nanya, ini jaga-jaga kalo ditanya pas sidang nanti.. he..
    makasih banyak ya..😀

    • 21 Juni 2011 pukul 16:39

      sama-sama, saya juga sekalian googling. kebetulan, tertarik di yang kayak ginian.
      untuk J48, saya sudah ketemu sedikit, kok bisa disebut itu, bisa dilihat di sini :
      https://list.scms.waikato.ac.nz/pipermail/wekalist/2009-February/015939.html

      saya kutipkan,
      J48 is a re-implementation of C4.5 release 8 (hence the name J48) in
      Java. A lot of time has been spent getting the same results as the
      original C4.5. J48 implements both C4.5’s confidence-based post-
      pruning (default) and sub-tree raising.

      jadi, mungkin, J dari Java, 48 dari C4.5 release 8.
      CMIIW

      sama2 mbak, saya juga senang kalau ternyata membantu.

      semoga sukses sidangnya.

  2. Tita
    22 Juni 2011 pukul 13:38

    makasih banyak…
    masih belum terjawab yang C4.5 ya.. he
    ada lagi yang mau ditanyakan..

    waktu merubah file ecxel ke csv kalo di notepad nya pake tanda “;”, memang tetep harus manual dirubah jadi “,”?
    ada cara lain?

    makasih banyak sebelumnya..

  3. 23 Juni 2011 pukul 16:22

    Saya akhirnya ikutan penasaran, tentang asal nama dari C4.5 atau C5 itu… Dan, akhirnya nanya ke dosen saya, jawabnya, C itu Classification, jadi mungkin 4.5 dan 5 adalah versinya.

    Mengenai tanda “;” itu, saya juga masih belum menemukan cara yang lebih elegan. Saya sudah baca di tutorial WEKAnya pun tidak dijelaskan. Bahkan, CSV yang dimaksud oleh WEKA, adalah yang menggunakan koma, bukan titik koma. Padahal, ada fitur dri WEKA untuk merubah .csv versi “koma” ke .arff dengan mudah.

    Jadi, kemungkinan, pada export darimicrosoft excelnya. Mungkin, ada mode untuk .csv versi “koma”. Namun, sialnya, sudah saya obrak-abrik isi excelnya, dengan menngunakan beberapa cara, tetap saja ngotot pakai “;”.

  4. Tita
    24 Juni 2011 pukul 10:44

    hooo.. okeoke..
    makasimakasi..😀

    g bisa ya😦
    waaaa padahal datanya banyaaaaaak, kalo harus diganti satu-satu lumayan yah..

    • 24 Juni 2011 pukul 17:47

      ho,,, maaf2… nanti kalau tiba2 nemu, saya kasih tahu…

      tapi, sebenarnya, cukup dibuka di notepad++ semua file, lalu, di replace in all documents, cukup sekali jalan, selese…

  5. Tita
    25 Juni 2011 pukul 15:03

    ada lagiiii…
    mau tanya bedanya cross validation sama use training set apa?
    pas dicoba akurasinya lebih bagus yang use training set…

    oia, mas maaf banyak nanya…
    saya masih belajar..
    setelah mendapat hasil pohon keputusan, itu otomatis jadi rule kan, nah kalo mau masukan data baru dan mau diklasifikasikan dengan menggunakan rule itu gimana caranya?

    makasih banyak sebelumnya..
    mas bole g minta alamat facebook atau ym?
    pingin nanya” langsung gitu lewat chat

    • 25 Juni 2011 pukul 22:56

      karena jawabannya rada panjang, dan kayaknya panjang, saya jadiin sebagai postingan saja ya…
      silahkan cek 2 postingan setelah postingan ini.

      gak papa… saya juga masih belajar. Malah seneng kalau ditanya-tanya gini, jadi kepaksa nyari jawaban kalau belum tahu. He…

      ym : ismailsunni
      fb : https://www.facebook.com/ismailsunni

  6. wiwib
    20 Desember 2011 pukul 10:05

    kalau id3 untuk graph berarah atau tak berarah y..??

    • 20 Desember 2011 pukul 11:50

      berarah… kan dia bentuknya tree, sehingga perlu dibedakan mana root (akar) mana leave(daun)…

  7. musyafa
    2 Januari 2012 pukul 11:06

    mau nanya ni,…
    perbedaan mendasar antara ID3, C4.5 dan C5.0 apa ya???

    trus gimana cara kerja dari masing2 mereka,…

    terima kasih sebelumnya🙂

  8. 12 Mei 2012 pukul 10:45

    mas , saya boleh nanya ga ?
    bikin aplikasi SPK pake id3 cocok ga?
    tolong pencerahanya ya mas.
    please………..

  9. liverpool
    21 Mei 2012 pukul 11:25

    makasih penjelasannya, tapi kurang mengena soalnya g ada contohnya
    bisa minta contohnya g?

  10. 23 Mei 2012 pukul 14:44

    Apa perbedaan ID3, C4.5, dan C5.0??????????????????

  11. 26 November 2013 pukul 00:49

    dear all,
    saya menyediakan jasa pembuatan tugas akhir id3 dan c4.5. yg berminat bisa buka link http://www.kaskus.co.id/post/525d43c0a1cb17a447000005
    terima kasih, semoga membantu… ^_^

  12. Mel
    19 Januari 2016 pukul 16:18

    Artikel yang menarik dan sangat bermanfaat🙂
    kunjungi balik ya : http://www.metode-algoritma.com/

  13. Tarto
    29 Oktober 2016 pukul 05:06

    Kereenn
    gan bisa jelasin gg gmana sih sejarah awal c4.5 tuh muncul? kapan dan dimana lebih tepatnya.

  1. 22 Oktober 2012 pukul 10:30

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: