اختبار كاي تربيع (Chi-Square Test) يقيس الارتباط بين متغيرين فئوية (categorical) ومستقلة (independent). ويكتب مختصراً على الشكل: (test $\chi^2$). ويعرف هذا الاختبار كذلك باختبار كاي تربيع لبيرسون (Pearson’s chi-square test ). ويشير فرض العدم ($H_0$) إلى أنه لا يوجد ارتباط بين المتغيرين. يستخدم في الغالب لتحليل البيانات البيولوجية (biological data) ولكنه يمكن أن يستخدم في جميع المجالات العلمية بشرط أن تكون البيانات وحالة الاستخدام مناسبة لطبيعة هذا الاختبار كما يوضح الشكل التالي:
وعند تطبيق اختبار كاي تربيع يجب مراعاة الفروض (assumptions) التالية:
1. المتغيرات X , Y يجب أن تقاس على المستوى الترتيبي أو الاسمي، بمعنى أن البيانات تكون فئوية (categorical data).
2. المتغيرات X , Y يجب أن تكون مستقلة (independent).
3. يجب أن تكون قيمة الخلية المتوقعة (Cell expected values) في جدول الاقتران (contingency table) 5 أو أكثر في 80٪ على الأقل من خلايا الجدول، ويجب ألا يكون هناك أي خلية قيمتها المتوقعة أقل من 1.
ويمكن تطبيق اختبار كاي باستخدام لغة البرمجة آر R من خلال الدالة التالية:
chisq.test(x,y,correct,p,rescale.p,simulate.p.value,B)
حيث أن:
x | متجه رقمي أو مصفوفة |
y | متجه رقمي ويتم تجاهله اذا كان x مصفوفة، الإفتراضي: NULL. |
correct | تطبيق تصحيح الاستمرارية (continuity correction) عند حساب إحصائية الاختبار لجدول 2×2، الإفتراضي: TRUE. |
p | متجه من الاحتمالات له نفس طول x حيث أن القيمة الإفتراضية:
rep(1/length(x),length(x)) |
rescale.p | إعادة قياس p ليكون مجموعة يساوي 1، الإفتراضي: FALSE. |
simulate.p.value | حساب قيم p بواسطة محاكاة مونت كارلو(Monte Carlo)، الإفتراضي: FALSE. |
B | تكرار اختبار مونت كارلو، الإفتراضي: 2000. |
العلاقة بين تاريخ الامهات في التدخين ونقص وزن المواليد
سوف نستخدم اختبار كاي تربيع لاختبار ما إذا كان هناك علاقة بين تاريخ الامهات في التدخين ونقص وزن المواليد. من خلال مجموعة البيانات: lbw data يمكن الحصول على التالي:
mother | Baby birth weight | |
history of smoking | nonsmoker | |
30 | 29 | low (<2500 g) |
44 | 86 | normal (>2500 g) |
والتي يمكن تهيئتها كما يلي:
In: library(COUNT) data(lbw) birthweight=ifelse(lbw$low==1,"low","normal") mother=ifelse(lbw$smoke==1,"smoking","nonsmoker") lbw_data=table(birthweight,mother) lbw_data Out: mother birthweight nonsmoker smoking low 29 30 normal 86 44
فرض العدم (Null hypothesis) هو إن البيانات مستقلة (ليس هناك علاقة بين تاريخ الامهات في التدخين ونقص وزن المواليد). يمكن حساب القيم المتوقعة واختبار كاي كما يلي:
In: test_result=chisq.test(lbw_data,correct =FALSE) test_result$expected Out: mother birthweight nonsmoker smoking low 35.89947 23.10053 normal 79.10053 50.89947 In: test_result Out: Pearson's Chi-squared test data: lbw_data X-squared = 4.9237, df = 1, p-value = 0.02649
عند مستوى معنوية (Significance level) يساوي 0.05 نرفض فرض العدم ونقول إن هناك ارتباط بين تاريخ الامهات في التدخين ونقص وزن المواليد.
العلاقة بين التدخين وسرطان الرئة
سوف ندرس وجود ارتباط بين التدخين وسرطان الرئة من خلال استخدام مجموعة البيانات: Smoking and Lung Cancer data والتي يمكن تحميلها واستعراضها كما يلي:
In: library(HSAUR3) Smoking_Mueller1940 Out: Diagnosis Smoking Lung cancer Healthy control Nonsmoker 3 14 Moderate smoker 27 41 Heavy smoker 13 22 Very heavy smoker 18 5 Extreme smoker 25 4
حيث أن:
number of cigarettes smoked daily | Smoker |
1-15 | moderate |
16-25 | heavy |
26-35 | very heavy |
more than 35 | extreme |
الآن سوف نستخدم إختبار كاي تربيع وفي هذه الحالة سوف يكون فرض العدم هو إنه لايوجد ارتباط بين التدخين وسرطان الرئة:
In: test_result=chisq.test(Smoking_Mueller1940) test_result$expected Out: Diagnosis Smoking Lung cancer Healthy control Nonsmoker 8.5 8.5 Moderate smoker 34.0 34.0 Heavy smoker 17.5 17.5 Very heavy smoker 11.5 11.5 Extreme smoker 14.5 14.5 In: test_result Out: Pearson's Chi-squared test data: Smoking_Mueller1940 X-squared = 34.869, df = 4, p-value = 4.942e-07
والذي يشير إن هناك ارتباط قوي بين التدخين وسرطان الرئة. ولكن يظهر من الجدول أعلاه أن كمية التبغ المدخن هو متغير فئوي ترتيبي، وبالتالي فإن من المناسب أخذ هذا في الاعتبار من خلال اختبار الارتباط الخطي. يمكن استعراض نسبة Lung cancer و Healthy control لكل فئة كما يلي:
In:
library(coin)
spineplot(Smoking_Mueller1940)
ويمكن اختبار الارتباط الخطي كما يلي:
In: independence_test(Smoking_Mueller1940, teststat = "quad", scores = list(Smoking = c(1,2,3,4,5))) Out: Asymptotic General Independence Test data: Diagnosis by Smoking (Nonsmoker < Moderate smoker < Heavy smoker < Very heavy smoker < Extreme smoker) chi-squared = 30.219, df = 1, p-value = 3.858e-08
والذي يشير إلى إن الترتيب مهم في العلاقة بين التدخين وسرطان الرئة.
شرح بسيط وجميل .. يعطيك الف عافية
جزاك الله خير معلومات مفيدة وشرح بسيط وواضح