موقع د. عزيز الجعيد
  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

علم البيانات والذكاء الاصطناعي

  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

مقارنة المتوسط لمجموعتين من البيانات باستخدام لغة البرمجة آر R

18/05/2017 | لغة البرمجة آر R | تعليق واحد

يمكن مقارنة المتوسط (Mean) لمجموعتين من البيانات او عينتين $x$ , $y$ مستقلة (Independent) بإستخدام اختبار t-test ويعتمد على هذا الإختبار على الفرض (Assumption) بأن هذه البيانات تمثل مجتمع يتبع التوزيع الطبيعي (normal distribution). وبالتالي يكون إختبار الفرض الإحصائي (Hypothesis test) هو

\begin{align*}
H_{0}:\mu_{x}=\mu_{y} \\
H_{1}:\mu_{x}\neq \mu_{y}
\end{align*}

والذي يفضل كتابته كما يلي:

\begin{align*}
H_{0}:\mu_{x}-\mu_{y}=0 \\
H_{1}:\mu_{x}- \mu_{y}\neq0
\end{align*}

لتوضيح طريقة تطبيق t-test سوف نستخدم البيانات التالية: xydata والتي تحوي متغيرين هما x و y. في البداية سوف نتأكد من الفرض وهو هل البيانات المعطاه تتبع التوزيع الطبيعي. سوف نستخدم Normal Q-Q Plot والذي يمكن الحصول عليه بإستخدام الكود التالي:

In:
par(mfrow=c(1, 2))
qqnorm(x,main="x")
qqline(x, col = 2,lwd=2)
qqnorm(y,main="y")
qqline(y, col = 2,lwd=2)

حيث تكون النتيجه كما يلي:

حيث يمكن القول أن البيانات تتبع التوزيع الطبيعي. بدلاً من ذلك يمكن إستخدام إختبار Shapiro-Wilks حيث يمكن إجراء ذالك بإستخدام الكود التالي:

In:
shapiro.test(x)
Out:
        Shapiro-Wilk normality test

data:  x
W = 0.98522, p-value = 0.9091

In:
shapiro.test(y)
Out:
        Shapiro-Wilk normality test

data:  y
W = 0.98732, p-value = 0.9511

لكل المجموعتين p-value أكبر من 0.05 وبالتالي وبالتالي يمكن القول أن البيانات تتبع التوزيع الطبيعي. الأن، بإستخدام دالة t.test كما يلي:

In:
t.test(x,y)
Out:
        Welch Two Sample t-test

data:  x and y
t = 3.1732, df = 67.269, p-value = 0.002274
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.3240887 1.4229375
sample estimates:
mean of x mean of y 
 5.212591  4.339078

يتضح أن p-value = 0.002274 وهي أقل من مستوى المعنوية (Significance level) والذي يساوي 0.05 وبالتالي نرفض فرض العدم (Null hypothesis) $H_{0}$ ويكون القرار أن المجموعين مخلفتين بالنسبة للمتوسط.

ملاحظة: هذا الاختبار يسمى Welch’s t-test وهو يستخدم في حالة عدم فرض تساوي التباين (unequal variances) وكذلك في حالة اختلاف حجم المجموعتين او العينتين (unequal sample sizes). حيث أن t-test  يتطلب فرض تساوي التباين للعينتين (equal variances)، ويمكن تنفيذه كما يلي:

In:
t.test(x, y, var.equal =T)
Out:
Two Sample t-test

data: x and y
t = 3.1752, df = 68, p-value = 0.00225
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.3247364 1.4232636
sample estimates:
mean of x mean of y 
 5.213429 4.339429

وهو في هذه الحالة يؤدي لنفس القرار السابق وذلك لان المجموعتين لها نفس الحجم وكذلك لا يوجد فرق مهم بين التباين لهما كما هو واضح من خلال نتيجة F-test في الكود التالي:

In:
var.test(x,y)
Out:
	F test to compare two variances

data:  x and y
F = 0.81073, num df = 34, denom df = 34, p-value = 0.5441
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.4092287 1.6061545
sample estimates:
ratio of variances 
         0.8107309

عدم تحقق الفروض (assumptions):

في حالة كانت البيانات لاتتبع التوزيع الطبيعي او لتجنب هذا الفرض يمكن إستخدام Wilcoxon tests والذي لايعتمد على أي فرض. بإستخدامه تكون النتيجة كمايلي:

In:
wilcox.test(x,y)
Out:
        Wilcoxon rank sum test

data:  x and y
W = 873, p-value = 0.001941
alternative hypothesis: true location shift is not equal to 0

حيث أن p-value = 0.001941 وبالتالي القرار النهائي لم يتغير بإستخدام الطريقتين وهو رفض $H_{0}$.

جميع الحقوق الفكرية لهذا المقال محفوظة © موقع د. عزيز، يمنع إعادة نشره في موقع آخر

مقالات ذات صلة:

  • برنامج آر R

    البرنامج الإحصائي آر R هو واحد من أشهر البرامج الإحصائية. هذا البرنامج يعتمد على لغة البرمجة R والتي قام بتطويرها كلاً... برنامج آر R
    اقرأ المزيد
  • آر استوديو (RStudio)

    آر استوديو هو بيئة تشغيل للبرنامج الإحصائي آر R يحوي مجموعة من النوافد والأدوات المصممة بشكل رائع والتي تساعد على... آر استوديو (RStudio)
    اقرأ المزيد
  • مقدمة في لغة البرمجة آر R

    هذا الموضوع سوف نوضح بالتفصيل بعض الأساسيات في لغة البرمجة آر R والتي تمثل الخطوه الأولى في فهم هذه اللغة الهامة ويمكن... مقدمة في لغة البرمجة آر R
    اقرأ المزيد

التعليقات 1

  1. حنان بتاريخ أغسطس 18, 2018 - 9:08 م

    شكرا جزيلا دكتور عزيز ، محتوى يثلج الصدر ، إلى الأمااااام

شارك بتعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.

د. عزيز عوض الله الجعيد
دكتوراه في الإحصاء، عالم بيانات، مبرمج، مهتم في التحليل المتقدم، والبيانات الضخمة والذكاء الاصطناعي، لمزيد من المعلومات أضغط هنا

  • YouTube
جميع الحقوق محفوظة © موقع د. عزيز