موقع د. عزيز الجعيد | مقارنة المتوسط لمجموعتين من البيانات باستخدام لغة البرمجة آر R

يمكن مقارنة المتوسط (Mean) لمجموعتين من البيانات او عينتين $x$ , $y$ مستقلة (Independent) بإستخدام اختبار t-test ويعتمد على هذا الإختبار على الفرض (Assumption) بأن هذه البيانات تمثل مجتمع يتبع التوزيع الطبيعي (normal distribution). وبالتالي يكون إختبار الفرض الإحصائي (Hypothesis test) هو

\begin{align*}
H_{0}:\mu_{x}=\mu_{y} \\
H_{1}:\mu_{x}\neq \mu_{y}
\end{align*}

والذي يفضل كتابته كما يلي:

\begin{align*}
H_{0}:\mu_{x}-\mu_{y}=0 \\
H_{1}:\mu_{x}- \mu_{y}\neq0
\end{align*}

لتوضيح طريقة تطبيق t-test سوف نستخدم البيانات التالية: xydata والتي تحوي متغيرين هما x و y. في البداية سوف نتأكد من الفرض وهو هل البيانات المعطاه تتبع التوزيع الطبيعي. سوف نستخدم Normal Q-Q Plot والذي يمكن الحصول عليه بإستخدام الكود التالي:

In:
par(mfrow=c(1, 2))
qqnorm(x,main="x")
qqline(x, col = 2,lwd=2)
qqnorm(y,main="y")
qqline(y, col = 2,lwd=2)

حيث تكون النتيجه كما يلي:

حيث يمكن القول أن البيانات تتبع التوزيع الطبيعي. بدلاً من ذلك يمكن إستخدام إختبار Shapiro-Wilks حيث يمكن إجراء ذالك بإستخدام الكود التالي:

In:
shapiro.test(x)
Out:
        Shapiro-Wilk normality test

data:  x
W = 0.98522, p-value = 0.9091

In:
shapiro.test(y)
Out:
        Shapiro-Wilk normality test

data:  y
W = 0.98732, p-value = 0.9511

لكل المجموعتين p-value أكبر من 0.05 وبالتالي وبالتالي يمكن القول أن البيانات تتبع التوزيع الطبيعي. الأن، بإستخدام دالة t.test كما يلي:

In:
t.test(x,y)
Out:
        Welch Two Sample t-test

data:  x and y
t = 3.1732, df = 67.269, p-value = 0.002274
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.3240887 1.4229375
sample estimates:
mean of x mean of y 
 5.212591  4.339078

يتضح أن p-value = 0.002274 وهي أقل من مستوى المعنوية (Significance level) والذي يساوي 0.05 وبالتالي نرفض فرض العدم (Null hypothesis) $H_{0}$ ويكون القرار أن المجموعين مخلفتين بالنسبة للمتوسط.

ملاحظة: هذا الاختبار يسمى Welch’s t-test وهو يستخدم في حالة عدم فرض تساوي التباين (unequal variances) وكذلك في حالة اختلاف حجم المجموعتين او العينتين (unequal sample sizes). حيث أن t-test يتطلب فرض تساوي التباين للعينتين (equal variances)، ويمكن تنفيذه كما يلي:

In:
t.test(x, y, var.equal =T)
Out:
Two Sample t-test

data: x and y
t = 3.1752, df = 68, p-value = 0.00225
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.3247364 1.4232636
sample estimates:
mean of x mean of y 
 5.213429 4.339429

وهو في هذه الحالة يؤدي لنفس القرار السابق وذلك لان المجموعتين لها نفس الحجم وكذلك لا يوجد فرق مهم بين التباين لهما كما هو واضح من خلال نتيجة F-test في الكود التالي:

In:
var.test(x,y)
Out:
	F test to compare two variances

data:  x and y
F = 0.81073, num df = 34, denom df = 34, p-value = 0.5441
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.4092287 1.6061545
sample estimates:
ratio of variances 
         0.8107309

عدم تحقق الفروض (assumptions):

في حالة كانت البيانات لاتتبع التوزيع الطبيعي او لتجنب هذا الفرض يمكن إستخدام Wilcoxon tests والذي لايعتمد على أي فرض. بإستخدامه تكون النتيجة كمايلي:

In:
wilcox.test(x,y)
Out:
        Wilcoxon rank sum test

data:  x and y
W = 873, p-value = 0.001941
alternative hypothesis: true location shift is not equal to 0

حيث أن p-value = 0.001941 وبالتالي القرار النهائي لم يتغير بإستخدام الطريقتين وهو رفض $H_{0}$.

علم البيانات والذكاء الإصطناعي

ذكاء الأعمال

لغة البرمجة بايثون

مقالات متنوعـة

لغة البرمجة آر R

الإحــــــصــــــاء

البيانات المفتوحة

علم البيانات والذكاء الإصطناعي

ذكاء الأعمال

لغة البرمجة بايثون

مقالات متنوعـة

لغة البرمجة آر R

الإحــــــصــــــاء

البيانات المفتوحة

مقارنة المتوسط لمجموعتين من البيانات باستخدام لغة البرمجة آر R

التعليقات 1

شارك بتعليقك

مقارنة المتوسط لمجموعتين من البيانات باستخدام لغة البرمجة آر R

مقالات ذات صلة:

برنامج آر R

آر استوديو (RStudio)

مقدمة في لغة البرمجة آر R

التعليقات 1

شارك بتعليقك