موقع د. عزيز الجعيد
  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

علم البيانات والذكاء الاصطناعي

  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

اختبار كاي تربيع (Chi-Square Test) بإستخدام لغة البرمجة آر R

02/03/2019 | لغة البرمجة آر R | 2 تعليقات

اختبار كاي تربيع (Chi-Square Test) يقيس الارتباط بين متغيرين فئوية (categorical) ومستقلة (independent). ويكتب مختصراً على الشكل: (test $\chi^2$). ويعرف هذا الاختبار كذلك باختبار كاي تربيع لبيرسون (Pearson’s chi-square test ). ويشير فرض العدم  ($H_0$) إلى أنه لا يوجد ارتباط بين المتغيرين. يستخدم في الغالب لتحليل البيانات البيولوجية (biological data) ولكنه يمكن أن يستخدم في جميع المجالات العلمية بشرط أن تكون البيانات وحالة الاستخدام مناسبة لطبيعة هذا الاختبار كما يوضح الشكل التالي:

وعند تطبيق اختبار كاي تربيع يجب مراعاة الفروض (assumptions) التالية:

1. المتغيرات X , Y يجب أن تقاس على المستوى الترتيبي أو الاسمي، بمعنى أن البيانات تكون فئوية (categorical data).

2. المتغيرات X , Y يجب أن تكون مستقلة (independent).

3. يجب أن تكون قيمة الخلية المتوقعة (Cell expected values) في جدول الاقتران (contingency table) 5 أو أكثر في 80٪ على الأقل من خلايا الجدول، ويجب ألا يكون هناك أي خلية قيمتها المتوقعة أقل من 1.

ويمكن تطبيق اختبار كاي باستخدام لغة البرمجة آر R من خلال الدالة التالية:
chisq.test(x,y,correct,p,rescale.p,simulate.p.value,B)
حيث أن:

x متجه رقمي أو مصفوفة
y متجه رقمي ويتم تجاهله اذا كان x  مصفوفة، الإفتراضي: NULL.
correct  تطبيق تصحيح الاستمرارية (continuity correction) عند حساب إحصائية الاختبار لجدول 2×2، الإفتراضي: TRUE.
p متجه من الاحتمالات له نفس طول x حيث أن القيمة الإفتراضية:

rep(1/length(x),length(x))

rescale.p إعادة قياس p  ليكون مجموعة يساوي 1، الإفتراضي: FALSE.
simulate.p.value حساب قيم p بواسطة محاكاة مونت كارلو(Monte Carlo)، الإفتراضي: FALSE.
B تكرار اختبار مونت كارلو، الإفتراضي: 2000.

العلاقة بين تاريخ الامهات في التدخين ونقص وزن المواليد

سوف نستخدم اختبار كاي تربيع لاختبار ما إذا كان هناك علاقة بين تاريخ الامهات في التدخين ونقص وزن المواليد. من خلال مجموعة البيانات: lbw data يمكن الحصول على التالي:

mother Baby birth weight
history of smoking nonsmoker
30 29  low (<2500 g)
44 86 normal (>2500 g)

والتي يمكن تهيئتها كما يلي:

In:
library(COUNT)
data(lbw)
birthweight=ifelse(lbw$low==1,"low","normal")
mother=ifelse(lbw$smoke==1,"smoking","nonsmoker")
lbw_data=table(birthweight,mother)
lbw_data
Out:
                 mother
birthweight nonsmoker smoking
     low           29      30
     normal        86      44

فرض العدم (Null hypothesis) هو إن البيانات مستقلة (ليس هناك علاقة بين تاريخ الامهات في التدخين ونقص وزن المواليد). يمكن حساب القيم المتوقعة واختبار كاي كما يلي:

In:
test_result=chisq.test(lbw_data,correct =FALSE)
test_result$expected
Out:
                  mother
birthweight nonsmoker  smoking
     low     35.89947 23.10053
     normal  79.10053 50.89947
In:
test_result
Out:

	Pearson's Chi-squared test

data:  lbw_data
X-squared = 4.9237, df = 1, p-value = 0.02649

عند مستوى معنوية (Significance level) يساوي 0.05 نرفض فرض العدم ونقول إن هناك ارتباط بين تاريخ الامهات في التدخين ونقص وزن المواليد.

العلاقة بين التدخين وسرطان الرئة

سوف ندرس وجود ارتباط بين التدخين وسرطان الرئة من خلال استخدام مجموعة البيانات: Smoking and Lung Cancer data والتي يمكن تحميلها واستعراضها كما يلي:

In:
library(HSAUR3)
Smoking_Mueller1940
Out:
                              Diagnosis
   Smoking             Lung cancer Healthy control
  Nonsmoker                   3              14
  Moderate smoker            27              41
  Heavy smoker               13              22
  Very heavy smoker          18               5
  Extreme smoker             25               4

حيث أن:

number of cigarettes smoked daily Smoker
1-15 moderate
16-25 heavy
26-35 very heavy
more than 35 extreme

الآن سوف نستخدم إختبار كاي تربيع وفي هذه الحالة سوف يكون فرض العدم هو إنه لايوجد ارتباط بين التدخين وسرطان الرئة:

In:
test_result=chisq.test(Smoking_Mueller1940)
test_result$expected
Out:
                   Diagnosis
Smoking             Lung cancer Healthy control
  Nonsmoker                 8.5             8.5
  Moderate smoker          34.0            34.0
  Heavy smoker             17.5            17.5
  Very heavy smoker        11.5            11.5
  Extreme smoker           14.5            14.5
In:
test_result
Out:

	Pearson's Chi-squared test

data:  Smoking_Mueller1940
X-squared = 34.869, df = 4, p-value = 4.942e-07

والذي يشير إن هناك ارتباط قوي بين التدخين وسرطان الرئة. ولكن يظهر من الجدول أعلاه أن كمية التبغ المدخن هو متغير فئوي ترتيبي، وبالتالي فإن من المناسب أخذ هذا في الاعتبار من خلال اختبار الارتباط الخطي. يمكن استعراض نسبة Lung cancer و Healthy control لكل فئة كما يلي:

In:
library(coin)
spineplot(Smoking_Mueller1940)

ويمكن اختبار الارتباط الخطي كما يلي:

In:
independence_test(Smoking_Mueller1940, teststat = "quad", scores = list(Smoking = c(1,2,3,4,5)))
Out:

	Asymptotic General Independence Test

data:  Diagnosis by
	 Smoking (Nonsmoker < Moderate smoker < Heavy smoker < Very heavy smoker < Extreme smoker)
chi-squared = 30.219, df = 1, p-value = 3.858e-08

والذي يشير إلى إن الترتيب مهم في العلاقة بين التدخين وسرطان الرئة.

جميع الحقوق الفكرية لهذا المقال محفوظة © موقع د. عزيز، يمنع إعادة نشره في موقع آخر

مقالات ذات صلة:

  • برنامج آر R

    البرنامج الإحصائي آر R هو واحد من أشهر البرامج الإحصائية. هذا البرنامج يعتمد على لغة البرمجة R والتي قام بتطويرها كلاً... برنامج آر R
    اقرأ المزيد
  • آر استوديو (RStudio)

    آر استوديو هو بيئة تشغيل للبرنامج الإحصائي آر R يحوي مجموعة من النوافد والأدوات المصممة بشكل رائع والتي تساعد على... آر استوديو (RStudio)
    اقرأ المزيد
  • مقدمة في لغة البرمجة آر R

    هذا الموضوع سوف نوضح بالتفصيل بعض الأساسيات في لغة البرمجة آر R والتي تمثل الخطوه الأولى في فهم هذه اللغة الهامة ويمكن... مقدمة في لغة البرمجة آر R
    اقرأ المزيد

التعليقات 2

  1. فهد مسعود رضا بتاريخ مارس 3, 2019 - 1:29 م

    شرح بسيط وجميل .. يعطيك الف عافية

  2. أم عبدالله بتاريخ يونيو 23, 2020 - 3:29 م

    جزاك الله خير معلومات مفيدة وشرح بسيط وواضح

شارك بتعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.

د. عزيز عوض الله الجعيد
دكتوراه في الإحصاء، عالم بيانات، مبرمج، مهتم في التحليل المتقدم، والبيانات الضخمة والذكاء الاصطناعي، لمزيد من المعلومات أضغط هنا

  • YouTube
جميع الحقوق محفوظة © موقع د. عزيز