Archive

Posts Tagged ‘WEKA’

Cara menggunakan hasil klasifikasi pada WEKA

26 Juni 2011 44 komentar

Setelah melakukan pemilihan metode untuk melakukan klasifikasi, dan sudah menemukan metode yang paling cocok, tentu kita akan menggunakan hasilnya untuk memprediksi hasil klasifikasi dari sekumpulan data yang baru. Di sini, akan dijelaskan mengenai cara menggunakan hasil klasifikasi tersebut di WEKA.

Anggaplah kita sudah menemukan metode yang pas. Misal, dalam kasus ini, dengan J48 alias pohon C4.5. Catatan : kalau gambarnya tidak jelas, bisa diklik untuk memperbesar.

  1. Pilih test options–>supplied test set–>klik set

    Test options

    Test options

  2. Pilih file yang akan diprediksi Baca selanjutnya…

Test Options pada WEKA

Sekali lagi, tulisan ini saya tulis berdasarkan pertanyaan dari Saudari Tita yang muncul di blog ini. Mengenai

mau tanya bedanya cross validation sama use training set apa?

Biar lengkap, saya tulis semua saja.

Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan. Berikut penjelasan mengenai masing-masing option.

  1. Use training set
    Pengetesan dilakukan dengan menggunakan data training itu sendiri.
  2. Supplied test set
    Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data tes. Akan dijelaskan di postingan selanjutnya.
  3. Cross-validation
    Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut :
    Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali.
    Kemudian, error dari k tes tersebut akan dihitung rata-ratanya.
  4. Percentage split
    Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user.

Kalau untuk penjelasan kenapa ketika menggunakan use training set lebih tinggi nilai akurasinya dari cross-validation, saya sendiri belum begitu tahu juga. Belum mengeksplor lebih jauh tepatnya. Apakah hanya kebetulan, atau memang konsisten seperti itu untuk semua data. Hipotesis awal saya, karena use training set diuji dengan dia sendiri, sementara cross validation data yang digunakan untuk membentuk hasil klasifikasi dan untuk mengetesnya berbeda. Walaupun, merupakan satu kesatuan data.

Mungkin, kurang lebih seperti itu. Mohon koreksi jika ada kesalahan.

Perbedaan Algoritma ID3, C4.5, dan J48

20 Juni 2011 20 komentar

Berdasarkan pertanyaan oleh saudari Tita, yang muncul di tulisan sebelumnya mengenai ID3, C4.5, dan J48. Saya jadi kepikiran untuk menulis mengenai 3 hal tersebut. Untuk kali ini, masih secara umum saja.

ID3

ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3.

Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. Perhatikan ilustrasi berikut (klik untuk memperbesar): Baca selanjutnya…

Apa itu .ARFF dan cara membuatnya dari file excel .csv

19 Juni 2011 18 komentar

Saya sedang mencoba untuk menggunakan tools untuk melakukan data mining, yang konon sangat hebat. Nama tool-nya adalah WEKA.  Open source, dengan GNU Public License. Hmm, saya tidak akan membahas tentang WEKA dan tetek bengeknya, maklum, masih mencoba. Saya hanya ingin share tentang format .ARFF yang dipakai sebagai file input ketika menggunakan WEKA Sungguh, saya menghabiskan waktu sejam lebih dikit untuk trial and error, agar WEKA tidak protes.

Apa itu .ARFF ?

.ARFF adalah format file yang digunakan dalam WEKA> Dibuat oleh Andrew Donkin. Konon, ARFF ini singkatan dari “Andrew’s Ridiculos File Format”. Icon file ini adalah gambar burung WEKA (sama seperti aplikasinya). Berikut contoh file .ARFF yang pernah saya buat :

Contoh file .arff

Contoh file .arff

Maaf, kalau terlalu kecil. Jadi, dalam file .arff, ada 2 bagian, Yakni, header, dan data. Dalam file di atas, kotak pertama adalah header, dan kotak ke dua adalah data. Baca selanjutnya…

Kategori:Data Mining Tag:, ,
%d blogger menyukai ini: