Beranda > Data Mining > Apa itu .ARFF dan cara membuatnya dari file excel .csv

Apa itu .ARFF dan cara membuatnya dari file excel .csv

Saya sedang mencoba untuk menggunakan tools untuk melakukan data mining, yang konon sangat hebat. Nama tool-nya adalah WEKA.  Open source, dengan GNU Public License. Hmm, saya tidak akan membahas tentang WEKA dan tetek bengeknya, maklum, masih mencoba. Saya hanya ingin share tentang format .ARFF yang dipakai sebagai file input ketika menggunakan WEKA Sungguh, saya menghabiskan waktu sejam lebih dikit untuk trial and error, agar WEKA tidak protes.

Apa itu .ARFF ?

.ARFF adalah format file yang digunakan dalam WEKA> Dibuat oleh Andrew Donkin. Konon, ARFF ini singkatan dari “Andrew’s Ridiculos File Format”. Icon file ini adalah gambar burung WEKA (sama seperti aplikasinya). Berikut contoh file .ARFF yang pernah saya buat :

Contoh file .arff

Contoh file .arff

Maaf, kalau terlalu kecil. Jadi, dalam file .arff, ada 2 bagian, Yakni, header, dan data. Dalam file di atas, kotak pertama adalah header, dan kotak ke dua adalah data.

Untuk header, menunjukan nama relasi, kasus di atas, relasinya bernama “WillWait”. Sedangkan untuk baris-baris selanjutnya adalah @attribute[spasi][nama atribut][spasi][tipe data].

Dalam WEKA, ada 4 jenis tipe data, yakni :

  1. numeric
    tipe untuk bilangan bulat atau real. Untuk menggunakannya, cukup tulis numeric
  2. nominal spesification
    Semua atribut dalam contoh di atas adalah bertipe ini. Semacam enumerasi pada database. Untuk menggunakan atribut ini, gunakan kurung kurawal dan koma untuk mengenumerasi nila-nilai yang mungkin.Contoh :@attribute type {French,Thai,Burger,Italian}
  3. string
    Untuk merepresentasikan tipe string. Cara penulisannya, cukup tulis string
  4. date[<date-format>]
    Untuk merepresentasikan date. Saya sendiri belum pernah menggunakan tipe ini.

Pada bagian ke dua, yakni data, cukup dituliskan “@data” dan selanjutnya, menulis tiap baris dengan isi data. Tiap atribut dipisahkan dengan tanda koma. Lihat contoh. Untuk atribut yang belum diketahui, cukup diganti dengan tanda tanya “?”. Sedangkan untuk tipe string, gunakan tanda petik tunggal untuk mengapitnya.

Cara membuatnya ?

Cara pertama, manual. He… jelas, rentan salah ketik dan sangat capek.

Care ke dua, membuat dari file .csv, atau comma separated files. WEKA masih mau menerima format .csv ini. Tapi… Ada tapinya. Sebelumnya, sekilas tentang .csv ini.

Untuk mudahnya, .csv merupkana representasi sebuah file yang berisi data (tabel) yang dipisahkan dengan tanda comma untuk tiap kolomnya. Biar gampang dibayangkan, coba buka salah satu file excel Anda, lalu simpan sebagai (save-as) file .csv. Lalu, buka melalu notepad, maka akan kelihatan tanda pemisahnya.

Sebenarnya, file .csv ini bisa diterima oleh WEKA sebagai input. Namun sialnya, ada 2 standar .csv, yakni yang menggunakan ‘,’ dan ‘;’. Nah, si WEKA ini ngotot menggunakan “,”, sementara ketika kita menyimpan ke .csv, ada yang menggunakan “;”. Jelas, tidak terbaca dan ditolak.

Oleh, karenanya, kita harus secara manual mengubah “;” menjadi “,”. Caranya ? Buka di notepad, dan gunakan fungsi replace. Tapi, ingat, ubah dulu semua tanda “,” menjadi “.”. Supaya tidak salah arti.

Ketika Anda menjalankan WEKA, pilih open file, lalu pilih dengan tipe .csv. Pilih file .csv Anda. Lalu, muncul di WEKA-nya. Nah, sekarang, save sebagai .ARFF. SELESAI.

Jelas, cara ke dua lebih mudah diterapkan. Karena, micorsoft excel lebih manusiawi daripada notepad.

Nah, segitu dulu untuk masalah kecil seperti ini. Nanti, saya lanjutkan lagi untuk di WEKAnya.

Sumber : AI32-Guide to Weka, Andrew Roberts

About these ads
Kategori:Data Mining Tag:, ,
  1. Tita
    20 Juni 2011 pukul 10:30 | #1

    salam..
    waa makasi infonya..
    saya tita, mau tanya mas kalo algoritma c4.5 sama g dengan J48 yang ada di weka?
    apa bedanya algoritma id3 dengan c4.5?
    oia, mau nanya juga kenapa algoritmanya dinamakan ID3, J48, dan C4.5?
    makasih banyak sebelumnya :)

  2. Kiki
    2 Desember 2011 pukul 14:44 | #3

    Salam ..
    Sebelumnya terima kasih banyak atas info nya mas . Tp saya mengalami kendala dalam menggunakan weka 3.6.4 ini mas . Masalahnya terletak pada ketika di bagian open file data .csv nya bisa masuk tetapi ketika saya mulai mau mengunakan asosiasi dengan menggunakan algoritma Apriori hasilnya ” no large itemsets and rules found “.. kenapa hasilnya seperti itu ya mas .

    Mohon bantuannya mas..
    Terima kasih banyak ..:-)

  3. 23 Februari 2012 pukul 20:03 | #4

    salam . .

    klo untuk algoritma c5.0 ada di WEKA ga?

    terima kasih

  4. 2 Maret 2012 pukul 10:57 | #6

    Sun,,
    untuk konversi data dari csv ke arff itu apakah bisa dilakukan secara otomatis? misal menggunakan suatu converter. karena setahu saya bagian header dari csv dan arff itu berbeda, dan tentu jika konversi dilakukan secara manual akan sangat melelahkan untuk data dengan banyak attribute.
    Mohon bantuannya ya :)
    buat laporan KP nih, saya gak paham soal olah2 data begini..

    *ternyata ini blognya ismail sunni toh*

    • 2 Maret 2012 pukul 11:02 | #7

      lha itu, baca aja dit… pokoknya, pastikan si ‘separator characternya’ sesuai. Soalnya, ada 3 jenis CSV.

      tinggal open file csv di WEKA, lalu save as arff file. Ngebukanya bisa pake menu arff viewer atau buka aja kayak pas mau ngejalanin klasifier WEKAnya…

      iya, ini blog aku yang rada mikir…

      • 2 Maret 2012 pukul 22:52 | #8

        kalau gitu usul topik bahasan baru ah…
        ayo bahas soal CSV.. habisnya setau saya emang cuma pake koma, kan judulnya juga Comma delimited..
        eh, klo gak mau kebuka langsung di arff viewernya berarti apa sun?

        heu,,maaf ya, emang rada lemot kalo harus berurusan dengan hal beginian,,

        beneran lah, baca isi blognya aja pake mikir ini mah sun..

      • 3 Maret 2012 pukul 09:12 | #9
  5. 24 April 2012 pukul 15:25 | #10

    mantabs bos

  6. 13 Mei 2012 pukul 16:50 | #11

    salam kenal,,,
    terimakasih atas informasinya sangat membnatu sekali,,
    mas,,mau tanya kalau sudah mngubah “;” menjadi “,” dengan cara membuka notpade,, trs stelah itu gimana? apakah hasil edit di notepad secara otomatis ke save di excel nya ? atau notepade nya itu harus di save dlu? mohon pnjlasannya mas, saya gak ngerti,,

    terimakasih,,

    • 13 Mei 2012 pukul 17:56 | #12

      gunakan fungsi replace untuk mengubah ‘;’ menjadi ‘,’
      simpan sebagai file .csv
      biasanya, csv itu kalau di-double click, akan dibuka dengan menggunakan ms. excel… *tentu harus ada aplikasi excelnya

  7. maruloh
    26 Juni 2012 pukul 19:25 | #13

    penggunaan algoritma apriori di weka gmn y? ada yg tau, plis infonya….

  8. zyga
    9 November 2012 pukul 12:30 | #14

    wa makasih banget oom :3 lagi belajar data mining ini, wa makasih postingnya mantap

  1. 20 Juni 2011 pukul 22:02 | #1

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Logout / Ubah )

Twitter picture

You are commenting using your Twitter account. Logout / Ubah )

Facebook photo

You are commenting using your Facebook account. Logout / Ubah )

Google+ photo

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

Ikuti

Get every new post delivered to your Inbox.

Bergabunglah dengan 434 pengikut lainnya.

%d bloggers like this: