Beranda > Klasifikasi, NLP > Pelabelan Manual Tweet Tugas Akhir

Pelabelan Manual Tweet Tugas Akhir

To the point saja. Intinya, saya sedang mengerjakan Tugas Akhir (TA) saya, mengenai Analisis Sentimen atau Sentiment Analysis. Dengan data berasal dari Twitter, yang saya batasi khusus sentimen terhadap tokoh publik di Indonesia.

Nah, saya menggunakan metode pembelajaran mesin, atau machine learning, yang artinya membutuhkan data training. Target saya adalah menggunakan 3.000 tweet yang saya comot dari Twitter selama seminggu, dan mengambil sample secara random.

Saya sudah mencoba melabeli sekitar 200an tweet. Setelah saya coba, hasilnya tidak terlalu bagus, bahkan cenderung jelek dengan akurasi 50-60 %. Algoritma yang saya gunakan adalaha Naive Bayes dari NLTK. Sedangkan preproses yang digunakan, saya rasa sudah cukup maksimal, bahkan sampai menggunakan levenshtein distance untuk mengantisipasi kesalahan ketik di tweet.

Sebenarnya, tujuan TA saya bukan sekadar mengklasifikasikan lalu menentukan sentimen. Tetapi sampai ke analisis, kenapa bisa memperoleh sentimen seperti itu. Akibatnya, saya harus mengambil tweet dalam suatu durasi waktu. Yang artinya, butuh banyak tweet.

Kembali ke masalah. Ternyata, rakyat Republik Twitter Indonesia seringkali memberikan tanggapan atau sentimen secara tidak langsung. Bisa sindiran, sarkasme, atau yang paling lucu sekaligus menyiksa saya, membuat lelucon. Jadi, kalau tidak tahu konteks, pasti akan mengira bersentimen negatif, tapi sebenarnya positif. Dan ini yang luput dari pengamatan saya di pelabelan 200 tweet tadi.

Semula saya ingin meminta bantuan untuk pelabelan ini kepada siapa saja yang nyasar membaca blog ini. Tapi, itu tidak jadi saya lakukan. Karena, memang sangat banyak, 3.000 bung. Tapi, kalau ingin membantu, silahkan download di data_training_TA_Ismail Sunni. Jika sudah, bisa dikirim via email ke ismailsunni[at]yahoo[dot]co[dot]id. Saya akan sangat berterima kasih sekali. Tetapi, saya tidak bisa memberikan imbalan apa-apa, saya masih mahasiswa.

Nantinya, data training ini akan saya upload. Barangkali ada yang membutuhkan bisa segera mengunduhnya. Terima kasih.

  1. silvi
    26 Mei 2015 pukul 03:03

    mau nanya, apakah data trainingnya harus data yang memiliki topik yang sama?

  2. afdi
    29 April 2016 pukul 13:52

    Bro., boleh minta softcopy skripsi nya. Kebetulan saya punya tugas kuliah dengan topik yang sama.
    email saya afd_cool@yahoo.com

  1. No trackbacks yet.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: