Penormalan ialah digunakan untuk menghapuskan data berlebihan dan memastikan kluster kualiti yang baik dijana yang boleh meningkatkan kecekapan algoritma pengelompokan. Jadi ia menjadi langkah penting sebelum mengelompokkan sebagai jarak Euclidean sangat sensitif terhadap perubahan dalam perbezaan[3].
Adakah kita perlu menormalkan data untuk pengelompokan K-means?
Seperti dalam kaedah k-NN, ciri yang digunakan untuk pengelompokan mesti diukur dalam unit yang setanding. Dalam kes ini, unit tidak menjadi isu kerana kesemua 6 ciri dinyatakan pada skala 5 mata. Penormalan atau penyeragaman tidak diperlukan.
Bagaimanakah anda menyediakan data sebelum mengelompokkan?
Penyediaan Data
Untuk melaksanakan analisis kelompok dalam R, secara amnya, data hendaklah disediakan seperti berikut: Baris ialah pemerhatian (individu) dan lajur ialah pembolehubah. Sebarang nilai yang hilang dalam data mesti dialih keluar atau dianggarkan. Data mesti diseragamkan (iaitu, berskala) untuk menjadikan pembolehubah setanding.
Adakah data perlu diskalakan untuk pengelompokan?
Dalam pengelompokan, anda mengira persamaan antara dua contoh dengan menggabungkan semua data ciri untuk contoh tersebut menjadi nilai angka. Menggabungkan data ciri memerlukan data mempunyai skala yang sama.
Mengapa penting untuk Menormalkan ciri sebelum mengelompokkan?
Penstandardan ialah langkah penting Dataprapemprosesan.
Seperti yang dijelaskan dalam kertas ini, k-means meminimumkan fungsi ralat menggunakan algoritma Newton, iaitu algoritma pengoptimuman berasaskan kecerunan. Menormalkan data meningkatkan penumpuan algoritma sedemikian.