no comments

Andaian Data: Ini mengenai baki, dan bukan data mentah pembolehubah

Normal, atau taburan normal adalah satu istilah yang sangat biasa tetapi apa yang ia benar-benar bermakna dan apa yang ia merujuk kepada …

Dalam model linear seperti ANOVA dan Regresi (atau mana-mana prosedur statistik berdasarkan regresi), satu andaian penting adalah “normal”. Persoalannya ialah sama ada merujuk kepada hasil (pembolehubah bergantung “Y”), atau peramal (variabel bebas “X”). Kita harus ingat bahawa jawapan sebenar adalah “tidak ada di atas”.

Dalam model linear di mana kita melihat hubungan di antara pembolehubah bersandar dan tak bersandar, tumpuan kami adalah pada Y, memandangkan nilai X (atau Y | X). Yang penting di sini adalah untuk melihat perbezaan yang tidak dapat dijelaskan, yang kita panggil “jangka error” atau “sisa” (ε). Oleh itu, apabila kita menyemak pengandaian normal, kita hanya perlu mempertimbangkan pengedaran sisa (yang boleh sama ada sisa atau sisihan pelajar). Cara mudah untuk mengesan normal adalah untuk melakukan plot kebarangkalian normal dan Q-Q plot sisa ini.

Jadi, untuk memenuhi andaian normal, hanya sisa kita perlu mempunyai pengedaran normal. Kami tidak perlu mengambil berat tentang norma univariat sama ada bergantung atau pembolehubah bebas. Ambil perhatian bahawa walaupun kekurangan normality residual sering disebabkan oleh ketidak-normalan pembolehubah bergantung, boleh jadi bahawa walaupun pembolehubah bergantung pada pembahagian normal, sisa-sisa tersebut gagal pada asumsi normal. Dalam kes ini, ketidaksamaan sisa mungkin disebabkan oleh pelanggaran anggapan linier, atau mungkin kehadiran beberapa kelebihan univariat yang besar. Semak kedua-dua luaran univariat (mis. Z-markah) dan luaran multivarian (contohnya jarak Mahalanobis) dan juga melihat pengaruh langkah (contohnya SDfBeta atau nisbah Kovarians).

andaian pengagihan lain yang pergi tangan-tangan dengan normal daripada sisa adalah “kebebasan kesilapan” dan “varians berterusan” (homoscedasticity). Kedua-dua ini boleh diperiksa dengan graf dengan merancang sisa-sisa terhadap “nilai yang diramalkan”. Plot ini sepatutnya mempunyai penyebaran rawak yang baik – jadi tiada corak tersendiri (mis. Garis, corong atau lengkung). Anda juga boleh melakukan plot yang berselerak dengan “Regresi Bersandar yang Diprediksi Bersandar” (pada X-Axis) terhadap “Regresi yang Dilancarkan Pelajar yang Dihapuskan” (Y-Axis) atau Plot Residuals (Y-Axis) terhadap prediktor yang sepatutnya tidak mempunyai corak .

Dengan statistik ujian pada pemboleh ubah bergantung binari (seperti regresi logistik dan analisis diskriminan), pembolehubah bergantung tidak boleh diedarkan secara normal. Ini bukan masalah dengan regresi logistik kerana ia bernasib baik tidak mempunyai andaian pengedaran (ia adalah prosedur bebas pengedaran). Walau bagaimanapun, untuk analisis diskriminan kita perlu melihat normal multivariat yang bermaksud normal dalam kumpulan yang dibentuk oleh pembolehubah bersandar.

Perhatikan bahawa remedi univariat yang tidak normal melalui prosedur seperti transformasi (contohnya log, punca kuasa atau timbal balik) boleh menjadi remedi yang baik untuk univariat bukan normal, tetapi tidak mempunyai kesan yang signifikan terhadap normalisasi sisa.

Sumber : Peter Steyn, IntroSpective Mode

KOMEN ANDA

Komen

TENTANG KAMI | PENAFIAN | HUBUNGI | HANTAR ARTIKEL