يمكن مقارنة المتوسط (Mean) لمجموعتين من البيانات او عينتين $x$ , $y$ مستقلة (Independent) بإستخدام اختبار t-test ويعتمد على هذا الإختبار على الفرض (Assumption) بأن هذه البيانات تمثل مجتمع يتبع التوزيع الطبيعي (normal distribution). وبالتالي يكون إختبار الفرض الإحصائي (Hypothesis test) هو
\begin{align*}
H_{0}:\mu_{x}=\mu_{y} \\
H_{1}:\mu_{x}\neq \mu_{y}
\end{align*}
والذي يفضل كتابته كما يلي:
\begin{align*}
H_{0}:\mu_{x}-\mu_{y}=0 \\
H_{1}:\mu_{x}- \mu_{y}\neq0
\end{align*}
لتوضيح طريقة تطبيق t-test سوف نستخدم البيانات التالية: xydata والتي تحوي متغيرين هما x و y. في البداية سوف نتأكد من الفرض وهو هل البيانات المعطاه تتبع التوزيع الطبيعي. سوف نستخدم Normal Q-Q Plot والذي يمكن الحصول عليه بإستخدام الكود التالي:
In:
par(mfrow=c(1, 2))
qqnorm(x,main="x")
qqline(x, col = 2,lwd=2)
qqnorm(y,main="y")
qqline(y, col = 2,lwd=2)
حيث تكون النتيجه كما يلي:
حيث يمكن القول أن البيانات تتبع التوزيع الطبيعي. بدلاً من ذلك يمكن إستخدام إختبار Shapiro-Wilks حيث يمكن إجراء ذالك بإستخدام الكود التالي:
In: shapiro.test(x) Out: Shapiro-Wilk normality test data: x W = 0.98522, p-value = 0.9091 In: shapiro.test(y) Out: Shapiro-Wilk normality test data: y W = 0.98732, p-value = 0.9511
لكل المجموعتين p-value أكبر من 0.05 وبالتالي وبالتالي يمكن القول أن البيانات تتبع التوزيع الطبيعي. الأن، بإستخدام دالة t.test كما يلي:
In: t.test(x,y) Out: Welch Two Sample t-test data: x and y t = 3.1732, df = 67.269, p-value = 0.002274 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.3240887 1.4229375 sample estimates: mean of x mean of y 5.212591 4.339078
يتضح أن p-value = 0.002274 وهي أقل من مستوى المعنوية (Significance level) والذي يساوي 0.05 وبالتالي نرفض فرض العدم (Null hypothesis) $H_{0}$ ويكون القرار أن المجموعين مخلفتين بالنسبة للمتوسط.
ملاحظة: هذا الاختبار يسمى Welch’s t-test وهو يستخدم في حالة عدم فرض تساوي التباين (unequal variances) وكذلك في حالة اختلاف حجم المجموعتين او العينتين (unequal sample sizes). حيث أن t-test يتطلب فرض تساوي التباين للعينتين (equal variances)، ويمكن تنفيذه كما يلي:
In: t.test(x, y, var.equal =T) Out: Two Sample t-test data: x and y t = 3.1752, df = 68, p-value = 0.00225 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.3247364 1.4232636 sample estimates: mean of x mean of y 5.213429 4.339429
وهو في هذه الحالة يؤدي لنفس القرار السابق وذلك لان المجموعتين لها نفس الحجم وكذلك لا يوجد فرق مهم بين التباين لهما كما هو واضح من خلال نتيجة F-test في الكود التالي:
In: var.test(x,y) Out: F test to compare two variances data: x and y F = 0.81073, num df = 34, denom df = 34, p-value = 0.5441 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.4092287 1.6061545 sample estimates: ratio of variances 0.8107309
عدم تحقق الفروض (assumptions):
في حالة كانت البيانات لاتتبع التوزيع الطبيعي او لتجنب هذا الفرض يمكن إستخدام Wilcoxon tests والذي لايعتمد على أي فرض. بإستخدامه تكون النتيجة كمايلي:
In: wilcox.test(x,y) Out: Wilcoxon rank sum test data: x and y W = 873, p-value = 0.001941 alternative hypothesis: true location shift is not equal to 0
حيث أن p-value = 0.001941 وبالتالي القرار النهائي لم يتغير بإستخدام الطريقتين وهو رفض $H_{0}$.
شكرا جزيلا دكتور عزيز ، محتوى يثلج الصدر ، إلى الأمااااام