Penormalan berguna apabila data anda mempunyai skala yang berbeza-beza dan algoritma yang anda gunakan tidak membuat andaian tentang pengedaran data anda, seperti jiran k-terdekat dan saraf tiruan rangkaian. Penyeragaman mengandaikan bahawa data anda mempunyai taburan Gaussian (lengkung loceng).
Bilakah kita harus menormalkan data?
Data hendaklah dinormalkan atau diseragamkan untuk membawa semua pembolehubah mengikut perkadaran antara satu sama lain. Sebagai contoh, jika satu pembolehubah adalah 100 kali lebih besar daripada yang lain (secara purata), maka model anda mungkin berkelakuan lebih baik jika anda menormalkan/menstandardkan kedua-dua pembolehubah itu menjadi lebih kurang setara.
Apakah perbezaan antara penormalan dan penyeragaman?
Normalization biasanya bermaksud menskalakan semula nilai ke dalam julat [0, 1]. Penyeragaman biasanya bermaksud menskala semula data untuk mempunyai min 0 dan sisihan piawai 1 (varian unit).
Bila dan mengapa kami memerlukan penormalan data?
Dalam istilah yang lebih ringkas, normalisasi memastikan semua data anda kelihatan dan dibaca dengan cara yang sama merentas semua rekod. Normalisasi akan menyeragamkan medan termasuk nama syarikat, nama kenalan, URL, maklumat alamat (jalan, negeri dan bandar), nombor telefon dan jawatan kerja.
Bagaimanakah anda memilih penormalan dan penyeragaman?
Dalam dunia perniagaan, "penormalan" biasanya bermaksud julat nilai adalah"dinormalkan menjadi daripada 0.0 hingga 1.0". "Penstandardan" lazimnya bermaksud julat nilai "disandarkan" untuk mengukur berapa banyak sisihan piawai nilai itu daripada minnya.