Apa itu .ARFF dan cara membuatnya dari file excel .csv
Saya sedang mencoba untuk menggunakan tools untuk melakukan data mining, yang konon sangat hebat. Nama tool-nya adalah WEKA. Open source, dengan GNU Public License. Hmm, saya tidak akan membahas tentang WEKA dan tetek bengeknya, maklum, masih mencoba. Saya hanya ingin share tentang format .ARFF yang dipakai sebagai file input ketika menggunakan WEKA Sungguh, saya menghabiskan waktu sejam lebih dikit untuk trial and error, agar WEKA tidak protes.
Apa itu .ARFF ?
.ARFF adalah format file yang digunakan dalam WEKA> Dibuat oleh Andrew Donkin. Konon, ARFF ini singkatan dari “Andrew’s Ridiculos File Format”. Icon file ini adalah gambar burung WEKA (sama seperti aplikasinya). Berikut contoh file .ARFF yang pernah saya buat :
Maaf, kalau terlalu kecil. Jadi, dalam file .arff, ada 2 bagian, Yakni, header, dan data. Dalam file di atas, kotak pertama adalah header, dan kotak ke dua adalah data.
Untuk header, menunjukan nama relasi, kasus di atas, relasinya bernama “WillWait”. Sedangkan untuk baris-baris selanjutnya adalah @attribute[spasi][nama atribut][spasi][tipe data].
Dalam WEKA, ada 4 jenis tipe data, yakni :
- numeric
tipe untuk bilangan bulat atau real. Untuk menggunakannya, cukup tulis numeric - nominal spesification
Semua atribut dalam contoh di atas adalah bertipe ini. Semacam enumerasi pada database. Untuk menggunakan atribut ini, gunakan kurung kurawal dan koma untuk mengenumerasi nila-nilai yang mungkin.Contoh :@attribute type {French,Thai,Burger,Italian} - string
Untuk merepresentasikan tipe string. Cara penulisannya, cukup tulis string - date[<date-format>]
Untuk merepresentasikan date. Saya sendiri belum pernah menggunakan tipe ini.
Pada bagian ke dua, yakni data, cukup dituliskan “@data” dan selanjutnya, menulis tiap baris dengan isi data. Tiap atribut dipisahkan dengan tanda koma. Lihat contoh. Untuk atribut yang belum diketahui, cukup diganti dengan tanda tanya “?”. Sedangkan untuk tipe string, gunakan tanda petik tunggal untuk mengapitnya.
Cara membuatnya ?
Cara pertama, manual. He… jelas, rentan salah ketik dan sangat capek.
Care ke dua, membuat dari file .csv, atau comma separated files. WEKA masih mau menerima format .csv ini. Tapi… Ada tapinya. Sebelumnya, sekilas tentang .csv ini.
Untuk mudahnya, .csv merupkana representasi sebuah file yang berisi data (tabel) yang dipisahkan dengan tanda comma untuk tiap kolomnya. Biar gampang dibayangkan, coba buka salah satu file excel Anda, lalu simpan sebagai (save-as) file .csv. Lalu, buka melalu notepad, maka akan kelihatan tanda pemisahnya.
Sebenarnya, file .csv ini bisa diterima oleh WEKA sebagai input. Namun sialnya, ada 2 standar .csv, yakni yang menggunakan ‘,’ dan ‘;’. Nah, si WEKA ini ngotot menggunakan “,”, sementara ketika kita menyimpan ke .csv, ada yang menggunakan “;”. Jelas, tidak terbaca dan ditolak.
Oleh, karenanya, kita harus secara manual mengubah “;” menjadi “,”. Caranya ? Buka di notepad, dan gunakan fungsi replace. Tapi, ingat, ubah dulu semua tanda “,” menjadi “.”. Supaya tidak salah arti.
Ketika Anda menjalankan WEKA, pilih open file, lalu pilih dengan tipe .csv. Pilih file .csv Anda. Lalu, muncul di WEKA-nya. Nah, sekarang, save sebagai .ARFF. SELESAI.
Jelas, cara ke dua lebih mudah diterapkan. Karena, micorsoft excel lebih manusiawi daripada notepad.
Nah, segitu dulu untuk masalah kecil seperti ini. Nanti, saya lanjutkan lagi untuk di WEKAnya.
Sumber : AI32-Guide to Weka, Andrew Roberts
salam..
waa makasi infonya..
saya tita, mau tanya mas kalo algoritma c4.5 sama g dengan J48 yang ada di weka?
apa bedanya algoritma id3 dengan c4.5?
oia, mau nanya juga kenapa algoritmanya dinamakan ID3, J48, dan C4.5?
makasih banyak sebelumnya 🙂
1. Iya, benar, J48 merupakan implementasi dari C4.5 di WEKA.
2. C4.5 merupakan lanjutan atau pengembangan dari ID3, silahkan baca tulisan https://codemath.wordpress.com/2011/06/20/perbedaan-algoritma-id3-c4-5-dan-j48/
3. kalau ID3 – Iterative Dichotomiser 3, kalau C4.5 dan J48, masih kurang tahu saya
terima kasih kembali Tita…
Salam ..
Sebelumnya terima kasih banyak atas info nya mas . Tp saya mengalami kendala dalam menggunakan weka 3.6.4 ini mas . Masalahnya terletak pada ketika di bagian open file data .csv nya bisa masuk tetapi ketika saya mulai mau mengunakan asosiasi dengan menggunakan algoritma Apriori hasilnya ” no large itemsets and rules found “.. kenapa hasilnya seperti itu ya mas .
Mohon bantuannya mas..
Terima kasih banyak ..:-)
salam . .
klo untuk algoritma c5.0 ada di WEKA ga?
terima kasih
secara default-nya, belum ada.
silahkan baca : http://www.rulequest.com/see5-info.html atau http://maya.cs.depaul.edu/classes/ect584/tools.html
Sun,,
untuk konversi data dari csv ke arff itu apakah bisa dilakukan secara otomatis? misal menggunakan suatu converter. karena setahu saya bagian header dari csv dan arff itu berbeda, dan tentu jika konversi dilakukan secara manual akan sangat melelahkan untuk data dengan banyak attribute.
Mohon bantuannya ya 🙂
buat laporan KP nih, saya gak paham soal olah2 data begini..
*ternyata ini blognya ismail sunni toh*
lha itu, baca aja dit… pokoknya, pastikan si ‘separator characternya’ sesuai. Soalnya, ada 3 jenis CSV.
tinggal open file csv di WEKA, lalu save as arff file. Ngebukanya bisa pake menu arff viewer atau buka aja kayak pas mau ngejalanin klasifier WEKAnya…
iya, ini blog aku yang rada mikir…
kalau gitu usul topik bahasan baru ah…
ayo bahas soal CSV.. habisnya setau saya emang cuma pake koma, kan judulnya juga Comma delimited..
eh, klo gak mau kebuka langsung di arff viewernya berarti apa sun?
heu,,maaf ya, emang rada lemot kalo harus berurusan dengan hal beginian,,
beneran lah, baca isi blognya aja pake mikir ini mah sun..
baca di sini saja dit: http://en.wikipedia.org/wiki/Comma-separated_values
mantabs bos
salam kenal,,,
terimakasih atas informasinya sangat membnatu sekali,,
mas,,mau tanya kalau sudah mngubah “;” menjadi “,” dengan cara membuka notpade,, trs stelah itu gimana? apakah hasil edit di notepad secara otomatis ke save di excel nya ? atau notepade nya itu harus di save dlu? mohon pnjlasannya mas, saya gak ngerti,,
terimakasih,,
gunakan fungsi replace untuk mengubah ‘;’ menjadi ‘,’
simpan sebagai file .csv
biasanya, csv itu kalau di-double click, akan dibuka dengan menggunakan ms. excel… *tentu harus ada aplikasi excelnya
penggunaan algoritma apriori di weka gmn y? ada yg tau, plis infonya….
wa makasih banget oom :3 lagi belajar data mining ini, wa makasih postingnya mantap
sangat membantu,. tapi masih bingung 🙂
maklum perdana.. :p
hello…
saya punya data xls, sdh convert ke arff dari program di internet tapi pas dimasukkan ke weka kok masih belum bisa y… mohon bantuannya. trims
Mungkin tidak sesuai formatnya. Coba dicek apa pesan dari WEKAnya
Maksud dari kata” ini bagaimana ya kak?
Tapi, ingat, ubah dulu semua tanda “,” menjadi “.”. Supaya tidak salah arti.
Ketika menggunakan karakter “,” sebagai separator, kita tidak boleh menggunkana karakter “,” untuk tujuan lain (misalnya, desimal). Oleh karenanya, sebelum mengubah “;” menjadi “,”, kita harus mengubah semua karakter “,” menjadi karakter lain, misalnya “.” supaya tidak terjadi penyalah artian karakter “,”
Selamat siang,
maaf mau bertanya kak. Bagaimana cara menggunakan WEKA dengan algoritma CNN, apakah algoritma CNN bisa digunakan untuk datatabel dan bagaimana cara membaca output dari CNN?
Terimakasih