Data kategorikal adalah jenis data yang membagi pelaku atau subjek pengamatan ke dalam berbagai kelompok atau kategori berdasarkan suatu ciri atau karakter tertentu. Dalam dunia pemrograman dan ilmu data, data kategorikal meliputi jenis data seperti boolean, enum, set, dan sejenisnya.
Kenapa Perlunya Transformasi Data Kategorikal?
Transformasi data kategorikal menjadi penting dalam analisis data dan pemodelan prediktif. Tidak semua algoritma dapat menerima input yang berjenis kategori dan malah bekerja dengan lebih baik pada data numerik. Algoritma yang lebih mengandalkan data numerik termasuk mesin vektor dukungan (SVM), regresi logistik, dan regresi linear.
Mesin belajar biasanya memerlukan input sebagai angka-angka. Jadi, ketika kita diberikan dataset yang berisi data kategorikal, kita perlu tahu bagaimana cara mengubah data kategorikal ini menjadi angka sebelum mengirimkannya ke algoritma pembelajaran mesin kita.
Teknik Transformasi Data Kategorikal
Ada dua teknik transformasi utama digunakan untuk mengubah data kategorikal ke dalam bentuk yang dapat digunakan dalam algoritma yang menuntut data numerik: encoding dan pembuatan fitur.
- Encoding: Teknik paling awal dan sederhana adalah teknik encoding. Ini melibatkan penggantian setiap nilai dalam kolom kategorikal dengan angka. Tiap kategori biasanya direpresentasikan sebagai satu set angka biner. Encoding dapat berupa ordinal (di mana urutan angka penting, seperti peringkat) atau biner / one-hot (di mana angka adalah biner dan masing-masing mewakili kategori individual, seperti warna).
- Pembuatan fitur: Ini melibatkan pembuatan fitur baru berdasarkan fitur kategori yang ada yang berhubungan langsung dengan output atau target. Misalnya, jika Anda memiliki fitur “warna” dan Anda tahu bahwa objek “merah” cenderung berkinerja lebih baik, Anda mungkin memiliki fitur baru seperti “is_red”.
Transformasi data kategori menjadi bentuk numerik adalah langkah penting dalam banyak algoritma mesin learning. Dengan memahami perbedaan antara data kategori dan data numerik, serta berbagai metode transformasi yang dapat digunakan, kita dapat merancang model prediktif yang lebih efektif dan efisien.