موقع د. عزيز الجعيد
  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

علم البيانات والذكاء الاصطناعي

  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

المتغيرات العشوائية

27/11/2017 | الإحــــــصــــــاء

المتغير العشوائي (random variable) هو متغير يمثل النتائج العددية لظاهرة عشوائية. يجب أن يكون المتغير العشوائي قابل للقياس. وهناك نوعين من المتغيرات العشوائية وهي:

  1. المتغيرات العشوائية المنفصلة (discrete random variable). مثلاً، عدد الأطفال في الإسرة لمدينة ما او عدد المرضى في عيادات السكري في إحدى المناطق. في الغالب يكون المتغير العشوائي المنفصل معدود وليس دائماً.
  2. المتغيرات العشوائية المتصلة (continuous random variable).مثلاً، أوزان طلاب مدرسة معينة أو سرعة السيارات على إحدى الطرق السريعه.

وبالتالي يمكن تعريف التوزيع الإحتمالي (probability distribution) بأنه وصف لظاهرة عشوائية معينة من حيث احتمالات وقوع الأحداث. وهذا يعني أن المتغير العشوائي يمكن أن يتبع توزيعاً إحتمالياً معيناً. وهناك نوعين من التوزيعات الإحتمالية:

اولاً: التوزيعات الإحتمالية المنفصلة مثل: توزيع برنولي (Bernouli distribution) و توزيع ذات الحدين (Binomial distribution). يمكن أن توصف بدالة الكتلة الإحتمالية (probability mass function) والتي تمثل بالدالة:

  1. \[
    f(x)=P(X=x)
    \]

حيث تمثل إحتمال أن يأخذ المتغير العشوائي $X$ قيمة معية $x$. ومن خصائصها:

a) $f(x_i)\geq 0, \text{ for } i=1,…,n.$

b) $\sum_{i=1}^{n}f(x_i)=1$

كما يمكن وصف التوزيع الإحتمالي المنفصل بدالة التوزيع التراكمي (cumulative distribution function) والتي تمثل بالدالة:

\[F(x)= P(X\leq x)=\sum_{u\leq x}f(u)\]

ومن خصائصها:

a) $F(x)\leq F(y)$ if $x\leq y.$
b) $\lim_{n \to -\infty}F(x)=0$;$\lim_{n \to +\infty}F(x)=1$

ثانياً: التوزيعات الإحتمالية المتصلة مثل: التوزيع الطبيعي (Normal distribution) والتوزيع الأسي (Exponential distribution). يمكن أن توصف بدالة الكثافة الإحتمالية (probability density function) والتي تمثل بالدالة:

\[
f(x)=P(X=x)
\]

حيث تمثل إحتمال أن يأخذ المتغير العشوائي $X$ قيمة معية $x$. ومن خصائصها:

a) $f(x_i)\geq 0, \text{ for } i=1,…,n.$

b) $\int_{-\infty }^{\infty}f(x)dx=1$

كما يمكن وصف التوزيع الإحتمالي المتصل بدالة التوزيع التراكمي (cumulative distribution function) والتي تمثل بالدالة:

\[F(x)= P(X\leq x)=\int_{-\infty }^{x}f(u)du\]

مثال(1): في تجربة رمي عملة معدنية تحمل وجهين أحدهما شعار (H) والآخر كتابة (T)، إذا كان $x$ متغير عشوائي يمثل نتيجة هذه التجربة، فما هو نوعه وأي توزيع إحتمالي يتبع؟

نفرض أن:

\begin{equation}
x=\left\{\begin{matrix}
0 & \text{ if } T \\
1 & \text{ if } H
\end{matrix}\right.
\end{equation}

وبالتالي $x$ متغير عشوائي يتبع توزيع برنولي.

 

الدالة المولدة للعزوم

12/01/2017 | الإحــــــصــــــاء

مثال(1): الدالة المولدة للعزوم للتوزيع الأسي

نفرض أن $X$ يتبع التوزيع الأسي (Exponential distribution)، حيث أن دالة الكثافة الإحتمالية (probability density function) تعطى كما يلي:

\[
f\left( x;\lambda \right) =\lambda e^{-\lambda x},x\geq 0.
\]

بالتالي الدالة المولدة للعزوم (the moment generating function) يمكن إيجادها كما يلي:

\begin{eqnarray*}
M_{X}\left( t\right) &=&E\left( e^{tx}\right) \\
&=&\int_{0}^{\infty }e^{tx}\lambda e^{-\lambda x}dx \\
&=&\lambda \int_{0}^{\infty }e^{\left( t-\lambda \right) x}dx \\
&=&\frac{\lambda -t}{\lambda -t}\times \lambda \int_{0}^{\infty }e^{-\left(
\lambda -t\right) x}dx \\
&=&\frac{\lambda }{\lambda -t}\underset{1}{\underbrace{\int_{0}^{\infty
}\left( \lambda -t\right) e^{-\left( \lambda -t\right) x}dx}} \\
&=&\frac{\lambda }{\lambda -t},t<\lambda
\end{eqnarray*}

يمكن حساب التوقع كما يلي:

\begin{eqnarray*}
E(x) &=&M_{X}^{\prime }\left( t=0\right) \\
&=&\left. \frac{\lambda }{\left( \lambda -t\right) ^{2}}\right\vert _{t=0} \\
&=&\frac{1}{\lambda }
\end{eqnarray*}
كذلك، يمكن حساب التباين كما يلي:
\begin{eqnarray*}
E(x^{2}) &=&M_{X}^{\prime \prime }\left( t=0\right) \\
&=&\left. \frac{2\lambda \left( \lambda -t\right) }{\left( \lambda -t\right)
^{4}}\right\vert _{t=0} \\
&=&\left. \frac{2\lambda }{\left( \lambda -t\right) ^{3}}\right\vert _{t=0}
\\
&=&\frac{2}{\lambda ^{2}}
\end{eqnarray*}

\begin{eqnarray*}
Var(x) &=&E(x^{2})-\left[ E\left( x\right) \right] ^{2} \\
&=&\frac{2}{\lambda ^{2}}-\frac{1}{\lambda ^{2}} \\
&=&\frac{1}{\lambda ^{2}}
\end{eqnarray*}

مثال(2): الدالة المولدة للعزوم للتوزيع ذات الحدين

نفرض أن المتغير $X$ يتبع توزيع ذات الحدين (Binomial distribution)، حيث أن دالة الكتلة الإحتمالية(probability mass function) تعطى كما يلي:

\[
f(x;p)=\binom{n}{x}p^x(1-p)^{n-x}
\]

بالتالي الدالة المولدة للعزوم  $M_{X}(t)$ (the moment generating function) يمكن حسابها كما يلي

\begin{align*}
M_{X}(t)
&=\mathrm{E}(e^{tx})\\
&=\sum_{x=0}^n\binom{n}{x}p^x(1-p)^{n-x}e^{tx}\\
&=\sum_{x=0}^n\binom{n}{x}\left(pe^t\right)^x(1-p)^{n-x}\\
&=\left[pe^t+(1-p)\right]^n
\end{align*}

التوقع والتباين (Expectation and Variance)

12/01/2017 | الإحــــــصــــــاء

نفرض أن $X$ متغير عشوائي يتبع التوزيع الطبيعي (Normal distribution) بمتوسط $\mu$ وتباين $\sigma^{2}$

\begin{equation*}
X\sim \mathcal{N}(\mu ,\sigma ^{2})
\end{equation*}

بالتالي دالة الكثافة الإحتمالية (The probability density function) يمكن كتابتها كما يلي:

\begin{equation*}
f(x;\mu ,\sigma )=\frac{1}{\sqrt{2\pi \sigma ^{2}}}e^{-\frac{\left( x-\mu
\right) ^{2}}{2\sigma ^{2}}}
\end{equation*}

كذالك يمكن حساب التوقع كما يلي:

\begin{eqnarray}
E(x) &=&\int_{-\infty }^{\infty }xf(x;\mu ,\sigma )dx \notag \\
&=&\int_{-\infty }^{\infty }\frac{x}{\sqrt{2\pi \sigma ^{2}}}e^{-\frac{%
\left( x-\mu \right) ^{2}}{2\sigma ^{2}}}dx \notag \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty }xe^{-\frac{%
\left( x-\mu \right) ^{2}}{2\sigma ^{2}}}dx
\end{eqnarray}

 

نفرض أن:

\begin{equation*}
u=x-\mu
\end{equation*}

 

بالتالي:

\begin{equation*}
x=u+\mu
\end{equation*}

\begin{equation*}
dx=du
\end{equation*}

\begin{eqnarray*}
E\left( x\right) &=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty
}\left( u+\mu \right) e^{-\frac{u^{2}}{2\sigma ^{2}}}du \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty }ue^{-\frac{u^{2}%
}{2\sigma ^{2}}}+\mu e^{-\frac{u^{2}}{2\sigma ^{2}}}du \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty }ue^{-\frac{u^{2}%
}{2\sigma ^{2}}}du+\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty
}\mu e^{-\frac{u^{2}}{2\sigma ^{2}}}du \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\underset{0}{\underbrace{\int_{-\infty
}^{\infty }ue^{-\frac{u^{2}}{2\sigma ^{2}}}du}}+\mu \underset{1}{\underbrace{%
\int_{-\infty }^{\infty }\frac{1}{\sqrt{2\pi \sigma ^{2}}}e^{-\frac{u^{2}}{%
2\sigma ^{2}}}du}} \\
&=&\mu
\end{eqnarray*}

 

ايضاً، يمكن حساب التباين كمايلي:

\begin{equation*}
Var(x)=E\left[ \left( x-\mu \right) ^{2}\right]
\end{equation*}

\begin{eqnarray*}
Var(x) &=&E\left[ \left( x-\mu \right) ^{2}\right] \\
&=&\int_{-\infty }^{\infty }\left( x-\mu \right) ^{2}f(x;\mu ,\sigma )dx \\
&=&\int_{-\infty }^{\infty }\frac{\left( x-\mu \right) ^{2}}{\sqrt{2\pi
\sigma ^{2}}}e^{-\frac{\left( x-\mu \right) ^{2}}{2\sigma ^{2}}}dx
\end{eqnarray*}

 

نفرض أن:

\begin{equation*}
y=x-\mu
\end{equation*}

 

بالتالي:

\begin{equation*}
dy=dx
\end{equation*}

\begin{equation*}
Var(x)=\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty }y^{2}e^{-%
\frac{y^{2}}{2\sigma ^{2}}}dy
\end{equation*}

 

بإستخدام التكامل بالتجزئة:

\begin{equation*}
\int udv=uv-\int vdu
\end{equation*}

 

نفرض أن:

\begin{eqnarray*}
u &=&y \\
dv &=&ye^{-\frac{y^{2}}{2\sigma ^{2}}}dy
\end{eqnarray*}

 

بالتالي:

\begin{eqnarray*}
du &=&dy \\
v &=&-\sigma ^{2}e^{-\frac{y^{2}}{2\sigma ^{2}}}
\end{eqnarray*}

 

أخيراً:

\begin{eqnarray*}
Var(x) &=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty }y^{2}e^{-%
\frac{y^{2}}{2\sigma ^{2}}}dy \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\int_{-\infty }^{\infty }udv \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\left( \left[ uv\right] _{-\infty
}^{\infty }-\int_{-\infty }^{\infty }vdu\right) \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\left( \left[ -\sigma ^{2}ye^{-\frac{%
y^{2}}{2\sigma ^{2}}}\right] _{-\infty }^{\infty }-\int_{-\infty }^{\infty
}-\sigma ^{2}e^{-\frac{y^{2}}{2\sigma ^{2}}}dy\right) \\
&=&\frac{1}{\sqrt{2\pi \sigma ^{2}}}\left[ -\sigma ^{2}ye^{-\frac{y^{2}}{%
2\sigma ^{2}}}\right] _{-\infty }^{\infty }-\frac{1}{\sqrt{2\pi \sigma ^{2}}}%
\int_{-\infty }^{\infty }-\sigma ^{2}e^{-\frac{y^{2}}{2\sigma ^{2}}}dy \\
&=&\frac{-\sigma ^{2}}{\sqrt{2\pi \sigma ^{2}}}\underset{0}{\underbrace{%
\left[ ye^{-\frac{y^{2}}{2\sigma ^{2}}}\right] _{-\infty }^{\infty }}}%
+\sigma ^{2}\underset{1}{\underbrace{\int_{-\infty }^{\infty }\frac{1}{\sqrt{%
2\pi \sigma ^{2}}}e^{-\frac{y^{2}}{2\sigma ^{2}}}dy}} \\
&=&\sigma ^{2}
\end{eqnarray*}

حساب إنحياز تقدير الوسط الحسابي والتباين

12/01/2017 | الإحــــــصــــــاء

نفرض أن $x_{1},x_{2},…,x_{n}$ عينه عشوائيه مستقله لها التوقع الرياضي $E(x_{i})=\mu$ والتباين $Var(x_{i})=\sigma ^{2}$. إذا كانت:

\[
\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}
\]

و

\[
s^{2}=\frac{1}{n}\sum_{i=1}^{n}\left( x_{i}-\overline{x}\right) ^{2}.
\]

فإن يمكن إثبات أن $\overline{x}$ تقدير غير منحاز للمَعلم (البارامتر) $\mu $. كذلك، $s^{2}$ تقدير منحاز للمَعلم (البارامتر) $\sigma ^{2}$

نحن نعلم إن الإنحياز لأي تقدير للمَعلم (البارامتر) $\widehat{\theta }$ يمكن حسابه من خلال:

\[
bias(\widehat{\theta })=E(\widehat{\theta })-\theta
\]

بالتالي:

\begin{eqnarray*}
E(\overline{x}) &=&E\left( \frac{1}{n}\sum_{i=1}^{n}x_{i}\right) \\
&=&\frac{1}{n}\sum_{i=1}^{n}E(x_{i}) \\
&=&\frac{1}{n}n\mu \\
&&\mu
\end{eqnarray*}

\[
bias(\overline{x})=\mu -\mu =0
\]

هذا يعني أن $\overline{x}$ تقدير غير منحاز للمَعلم (البارامتر) $\mu $.

أيضاً:

\begin{eqnarray*}
E\left( s^{2}\right) &=&E\left( \frac{1}{n}\sum_{i=1}^{n}\left( x_{i}-%
\overline{x}\right) ^{2}\right) \\
&=&E\left( \frac{1}{n}\sum_{i=1}^{n}\left( x_{i}^{2}-2\overline{x}x_{i}-%
\overline{x}^{2}\right) \right) \\
&=&E\left( \left[ \frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}\right] -2\overline{x}%
\underset{\overline{x}}{\underbrace{\left[ \frac{1}{n}\sum_{i=1}^{n}x_{i}%
\right] }}-\overline{x}^{2}\right) \\
&=&E\left( \left[ \frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}\right] -2\overline{x}%
^{2}+\overline{x}^{2}\right) \\
&=&E\left( \left[ \frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}\right] -\overline{x}%
^{2}\right) \\
&=&\left[ \frac{1}{n}\sum_{i=1}^{n}E\left( x_{i}^{2}\right) \right] -E\left(
\overline{x}^{2}\right) \text{———–(1)}
\end{eqnarray*}

نحن نعلم أن:

\[
Var(x_{i})=E(x_{i}^{2})-\left[ E(x_{i})\right] ^{2}
\]

هذا يعني أن:

\begin{eqnarray*}
E(x_{i}^{2}) &=&Var(x_{i})+\left[ E(x_{i})\right] ^{2} \text{———–(2)} \\
&=&\sigma ^{2}+\mu ^{2}
\end{eqnarray*}

أيضاً:

\[
E(\overline{x}^{2})=Var(\overline{x})+\left[ E(\overline{x})\right] ^{2}
\]

حيث:

\begin{eqnarray*}
Var(\overline{x}) &=&Var\left( \frac{1}{n}\sum_{i=1}^{n}x_{i}\right) \\
&=&\frac{1}{n^{2}}\sum_{i=1}^{n}Var\left( x_{i}\right) \\
&=&\frac{1}{n^{2}}\sum_{i=1}^{n}\sigma ^{2} \\
&=&\frac{1}{n^{2}}n\sigma ^{2} \\
&=&\frac{1}{n}\sigma ^{2}
\end{eqnarray*}

وبالتالي:

\begin{equation*}
E(\overline{x}^{2})=\frac{1}{n}\sigma ^{2}+\mu ^{2} \text{———–(3)}
\end{equation*}

بتعويض (2) و (3) في (4)، نجد أن:

\begin{eqnarray*}
E(s^{2}) &=&\left[ \frac{1}{n}\sum_{i=1}^{n}E\left( x_{i}^{2}\right) \right]
-E\left( \overline{x}^{2}\right) \\
&=&\left[ \frac{1}{n}\sum_{i=1}^{n}\left( \sigma ^{2}+\mu ^{2}\right) \right]
-\left( \frac{1}{n}\sigma ^{2}+\mu ^{2}\right) \\
&=&\sigma ^{2}+\mu ^{2}-\frac{1}{n}\sigma ^{2}-\mu ^{2} \\
&=&\sigma ^{2}-\frac{1}{n}\sigma ^{2} \\
&=&\left( \frac{n-1}{n}\right) \sigma ^{2}
\end{eqnarray*}

وبالتالي:

\begin{eqnarray*}
bias(s^{2}) &=&\sigma ^{2}-\frac{1}{n}\sigma ^{2}-\sigma ^{2} \\
&=&-\frac{1}{n}\sigma ^{2}
\end{eqnarray*}

لتصحيح إنحياز التقدير $s^{2},$ نستطيع إستخدام التقدير $\widehat{s}^{2}$

\begin{eqnarray*}
\widehat{s}^{2} &=&\left( \frac{n}{n-1}\right) s^{2} \\
&=&\left( \frac{n}{n-1}\right) \frac{1}{n}\sum_{i=1}^{n}\left( x_{i}-%
\overline{x}\right) ^{2} \\
&=&\frac{1}{n-1}\sum_{i=1}^{n}\left( x_{i}-\overline{x}\right) ^{2}
\end{eqnarray*}

تقدير الإحتمال الأقصى (Maximum Likelihood)

12/01/2017 | الإحــــــصــــــاء

نفرض أن $x_{1},x_{2},…,x_{n}$ عينة عشوائية تتبع توزيع برنولي ( Bernoulli distribution)، حيث أن دالة الكثافة الإحتمالية (the probability density function) يمكن كتابتها كما يلي:

\[
f\left( x_{i};p\right) =p^{x_{i}}\left( 1-p\right) ^{1-x_{i}}
\]

 

بالتالي دالة الإحتمال (Likelihood function) يمكن كتابتها كما يلي:

\begin{eqnarray*}
L\left( \mathbf{x}|p\right) &=&\prod\limits_{i=1}^{n}p^{x_{i}}\left(
1-p\right) ^{1-x_{i}} \\
&=&p^{\sum\nolimits_{i=1}^{n}x_{i}}\left( 1-p\right)
^{n-\sum\nolimits_{i=1}^{n}x_{i}}
\end{eqnarray*}

كذلك، بأخد اللوغاريم الطبيعي لدالة الإحتمال، نجد أن:

\begin{eqnarray*}
l\left( \mathbf{x}|p\right) &=&\log \left(
p^{\sum\nolimits_{i=1}^{n}x_{i}}\left( 1-p\right)
^{n-\sum\nolimits_{i=1}^{n}x_{i}}\right) \\
&=&\left( \sum\nolimits_{i=1}^{n}x_{i}\right) \log \left( p\right) +\left(
n-\sum\nolimits_{i=1}^{n}x_{i}\right) \log \left( 1-p\right)
\end{eqnarray*}

 

الأن، نشتق $l\left( \mathbf{x}|p\right) $ بالنسبة لـ $p$

\[
\frac{\partial l\left( \mathbf{x}|p\right) }{\partial p}=\frac{1}{p}%
\sum\nolimits_{i=1}^{n}x_{i}-\frac{1}{1-p}\left(
n-\sum\nolimits_{i=1}^{n}x_{i}\right)
\]

 

نضع $\frac{\partial l\left( \mathbf{x}|p\right) }{\partial p}$ تساوي صفر

\begin{eqnarray*}
\frac{1}{p}\sum\nolimits_{i=1}^{n}x_{i}-\frac{1}{1-p}\left(
n-\sum\nolimits_{i=1}^{n}x_{i}\right) &=&0 \\
\frac{1}{p}\sum\nolimits_{i=1}^{n}x_{i}-\frac{n}{1-p}+\frac{1}{1-p}%
\sum\nolimits_{i=1}^{n}x_{i} &=&0
\end{eqnarray*}

 

نضرب الطرفين بـ $p(1-p)$

\begin{eqnarray*}
(1-p)\sum\nolimits_{i=1}^{n}x_{i}-np+p\sum\nolimits_{i=1}^{n}x_{i} &=&0 \\
-np+\sum\nolimits_{i=1}^{n}x_{i} &=&0
\end{eqnarray*}

 

وبالتالي:

\begin{eqnarray*}
p &=&\frac{1}{n}\sum\nolimits_{i=1}^{n}x_{i} \\
&=&\bar{x}
\end{eqnarray*}

أخيراً، تقدير الإحتمال الأرجح (maximum likelihood estimator) يساوي:

\[
\hat{p}=\bar{x}
\]

الإحصاءات الكافية (sufficient statistics)

16/04/2017 | الإحــــــصــــــاء

عالم الأحياء والإحصاء رونالد فيشر

يقال في الإحصاء، عن إحصائية إنها كافية (sufficient statistics) بالنسبة لنموذج إحصائي ما والمعلمة (parameter) غير المعروفه المرتبطة به إذا لم يكن هناك أي إحصائية أخرى يمكن حسابها من نفس العينة ويمكن أن توفر أي معلومات إضافية عن قيمة هذه المعلمة. بالنسبة لمجموعة $ X $ من البيانات المستقلة التي تتبع توزيعاً مشروطاً على المعلمة غير المعروفه $\theta $، إذا كانت  الدالة $T (X)$ هي إحصائية كافية تحوي كل المعلومات اللازمة لحساب أي تقدير للمعلمة $\theta $، فإنه إعتماداً على نظرية تحليل العوامل ( factorization theorem) ، يمكن كتابة التوزيع المشترك لإحصاء كاف كما يلي:

\[
p(X;\theta)=h(X )g(\theta ,T(X)),
\]

مثال: توزيع برنولي (Bernoulli distribution)

بأخذ عينة عشوائية $x_{1},x_{2},…,x_{n}$ من توزيع برنولي، فإن دالة الكثافة الإحتمالية ( probability density function ) يمكن كتابتها كما يلي:

\[
f\left( x_{i};p\right) =p^{x_{i}}\left( 1-p\right) ^{1-x_{i}}
\]

بالتالي دالة الإحتمال ( likelihood function ) يمكن أن تكتب كما يلي:

\begin{eqnarray*}
L\left( \mathbf{x}|p\right) &=&\prod\limits_{i=1}^{n}p^{x_{i}}\left(
1-p\right) ^{1-x_{i}} \\
&=&p^{\sum\nolimits_{i=1}^{n}x_{i}}\left( 1-p\right)
^{n-\sum\nolimits_{i=1}^{n}x_{i}} \\
&=&\left( \frac{p}{1-p}\right) ^{\sum\nolimits_{i=1}^{n}x_{i}}\left(
1-p\right) ^{n} \\
&=&\left( \frac{p}{1-p}\right) ^{t}\left( 1-p\right) ^{n}
\end{eqnarray*}

حيث $t=\sum\nolimits_{i=1}^{n}x_{i}$ . الآن نستطيع أن نقول أن دالة الإحتمل المشتركة يمكن كتابتها على الشكل:

\[
L\left( \mathbf{x}|p\right) =g(p,t)h(x)
\]

حيث $h(x)=1$ وكذلك $g(p,t)=\left( \frac{p}{1-p}\right) ^{t}\left( 1-p\right) ^{n}$. وفقاً لنظرية فيشر لتحليل العوامل، نستطيع القول أن

\[
T(X)=\sum\nolimits_{i=1}^{n}x_{i}
\]

إحصائية كافية للمعلمة $p$.

 

الأرتباط بين المتغيرات

22/01/2017 | الإحــــــصــــــاء

قد نحتاج في كثير الأحيان لدراسة العلاقة بين متغرين أو أكثر مثل العلاقة وزن الإنسان والإصابة بمرض السكري.  عندئذ نقوم بحساب معامل الارتباط  (Correlation Coefficient) وهو قيمة رقمية تحدد إذا كان هناك علاقة إحصائية بين متغيرين او أكثر وهناك عدة أنواع من معاملات الارتباط:

معامل الإرتباط إستخدامة
معامل ارتباط بيرسون (Pearson correlation coefficient)
يستخدم لدراسة قوة وإتجاه العلاقة الخطية بين متغيرين.
معامل التصنيف الداخلي (intraclass correlation coefficient) يستخدم لدراسة العلاقة بين وحدات مختلفة داخل نفس المجموعة
معامل ارتباط سبيرمان للرتب (Spearman’s rank correlation coefficient) يستخدم لدراسة العلاقة بين رتب متغيرات مختلفة او رتب مختلفة لنفس المتغير.
معامل ارتباط كندال تاو للرتب (Kendall rank correlation coefficient) يستخدم لدراسة العلاقة بين الرتب  المشتركة بين متغيرين.

معامل ارتباط بيرسون (Pearson correlation coefficient) :

يمكن إستخدام معامل ارتباط بيرسون لقياس قوة العلاقة الخطية بين متغيرين x و y بإستخدام الصيغة التالية:

\[
r=\frac{n\sum \sum_{i=1}^{n}x_{i}y_{i}-\left (\sum_{i=1}^{n}x_{i} \right )\left (\sum_{i=1}^{n}y_{i} \right )}{\sqrt{\left (n\sum_{i=1}^{n}x_{i}^{2}-\left (\sum_{i=1}^{n}x_{i} \right )^{2} \right )\left (n\sum_{i=1}^{n}y_{i}^{2}-\left (\sum_{i=1}^{n}y_{i} \right )^{2} \right )}}
\]

حيث أن n هو حجم العينة (عدد المشاهدات).

ملاحظات هامة:

1- معامل الارتباط بيرسون  $
-1\leqslant r\leqslant 1$.

2- إذا كان $r=0$ فهذا يعني عدم وجود علاقة خطية ولاكن يمكن أن يكون هناك علاقة غير خطية ولذلك يفضل إستخدام شكل الإنتشار (scatter plot) لدراسة العلاقة بين المتغيرات بشكل أولي.

3- إذا كان معامل الإرتباط موجب فهذا يعني أن هناك علاقة خطية طردية اما إذا كان سالب فهناك علاقة عكسية.

شكل الإنشار لأنواع العلاقة الخطية:

شكل(1): علاقة خطية طردية بين y و x

شكل(2): علاقة عكسية طردية بين y و x

شكل(3): علاقة غير خطية بين y و x

 

 

الإحصاء البيزي (Bayesian statistics)

24/08/2017 | الإحــــــصــــــاء

الإحصاء البيزي والذي سمي نسبة الى العالم الإحصائي الأنجليزي توماس بيز  (Thomas Bayes) ، الذي عاش خلال الفترة (1701-1761م). هو من قام بصياغة حالة خاصة من النظرية المشهورة والتي تحمل إسمه وهي نظرية بيز ( Bayes’ theorem) رغم أنها لم تنشر في حياته وإنما نشرت بعد وفاته بواسطة ريتشارد برايس (Richard Price) . الاستدلال البيزي هو طريقة استدلال إحصائي تستخدم نظرية بيز لبناء النماذج الإحصائية وإستنتاج الأستدلالات الإحصائية حول معالِم (parameters) العينة أو المجتمع الإحصائي. نظرية بيز تكتب كما يلي:

\begin{equation}
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
\end{equation}

وهي تعني إحتمال وقوع الحادث $A$ بشرط وقوع الحادث $B$. بإستخدام نظرية بيز نستطيع كتابة نموج بيز لمجموعة من المتغيرات العشوائية $x_{1},x_{2},…,x_{n}
$ والتي تتبع توزيع إحتمالي دالتة الإحتمالية $f(x_{i};\theta)$. حيث أن $\theta$ معلمة أو مجموعة معالم (parameters). عندئذ يمكن كتابة النموذج البيزي والذي يمثل بالتوزيع اللاحق (posterior distribution) كما يلي:

\begin{equation}
p(\theta|\mathbf{x})=\frac{L(\mathbf{x}|\theta)p(\theta)}{\int_{-\infty}^{\infty }L(x|\theta)p(\theta)d\theta}
\end{equation}

حيث أن $p(\theta|\mathbf{x})$ هو التوزيع اللاحق (posterior distribution) و $p(\theta)$ هو التوزيع الأولي (prior distribution) و $L(\mathbf{x}|\theta)$ هي دالة الإحتمال  (likelihood function) أما المقدار الموجود في المقام :

\[
\int_{-\infty}^{\infty }L(x|\theta)p(\theta)d\theta\
\]

فهو ثابت المعايرة (Normalising constant).

التوزيع الأولي (prior distribution) لايعتمد على البيانات وينبغي تحديدة قبل مشاهدة البيانات وهو يمثل مانعتقده حول معلمة معينة وأن يحدد بعناية لتجنب التأثير الشخصي على النتائج (subjective) فإختلاف التوزيع الأولي يؤدي لإختلاف الإستدلالات الإحصائية. في بعض الأحيان قد نشعر بأنه ليس لدينا أي معلومات مسبقة حول معلمة ما، في مثل هذه الحالات يجب أن نستخدم توزيع أولي يعكس جهلنا حول هذه المعلمة. من اهم الملاحظات أنه في الإحصاء البيزي، المعلمة (parameter) ليس قيم واحدة كما في الإحصائ التقليدي وإنما تعامل كمقدار عشوائي يتبع توزيعاً محددا. حيث يتم حساب الإستدلالات الإحصائية حول هذه المعلمة من هذا التوزيع مثل المتوسط والوسيط وفترات الثقة. لبناء النموذج البيزي هناك اربع خطوات وهي:

  • تحديد التوزيع الإحتمالي للبيانات وصياغة دالة الإحتمال.
  • تحديد التوزيع الأولي.
  • حساب التوزيع اللاحق.
  • تحديد الإستدلالات الإحصائية من التوزيع اللاحق مثل المتوسط اللاحق (posterior mean)، الوسيط اللاحق (posterior mean) والفترات الموثوفة (credible intervals) وغيرها.

حيث يمكن حساب التوزيع اللاحق بعدة طرق كما في الشكل التالي:

 

مثال(1): نفرض أن لدينا عينة عشوائية $x_{1},x_{2},…,x_{n}$ تتبع توزيع ذات الحدين (binomial distribution)، حيث تعطى دالة الكتلة الإحتمالية (probability mass function) كما يلي:

\[
f\left( x_{i};\theta \right) =\left(
\begin{array}{c}
N_{i} \\
x_{i}%
\end{array}%
\right) \theta ^{x_{i}}\left( 1-\theta \right) ^{N_{i}-x_{i}}
\]

نفرض أن التوزيع الأولي (prior distribution) للبارامتر الوحيد $\theta $ هو توزيع بيتا (beta distribution) والذي يعطى من خلال دالة الكثافة الإحتمالية (probability density function) التالية:

\[
p\left( \theta \right) =\frac{\Gamma \left( a+b\right) }{\Gamma \left(
a\right) \Gamma \left( b\right) }\theta ^{a-1}\left( 1-\theta \right)
^{b-1},0\leq \theta \leq 1
\]

بالتالي التوزيع اللاحق (posterior density function) يمكن حسابة كما يلي:

\begin{eqnarray*}
p\left( \theta |\mathbf{x}\right) &\propto &L(\mathbf{x|}\lambda )p\left(
\lambda \right) \\
&\propto &\theta ^{\sum\nolimits_{i=1}^{n}x_{i}}\left( 1-\theta \right)
^{\sum\nolimits_{i=1}^{n}N_{i}-\sum\nolimits_{i=1}^{n}x_{i}}\times \theta
^{a-1}\left( 1-\theta \right) ^{b-1} \\
&\propto &\theta ^{a-1-\sum\nolimits_{i=1}^{n}x_{i}}\left( 1-\theta \right)
^{b-1+\sum\nolimits_{i=1}^{n}N_{i}-\sum\nolimits_{i=1}^{n}x_{i}} \\
&\propto &\theta ^{\left( a+\sum\nolimits_{i=1}^{n}x_{i}\right) -1}\left(
1-\theta \right) ^{\left(
b+\sum\nolimits_{i=1}^{n}N_{i}-\sum\nolimits_{i=1}^{n}x_{i}\right) -1}
\end{eqnarray*}

وهذا يمثل توزيع بيتا النسبي (بدون ثابت المعايرة – normalising constant)، بالتالي:

\[
\theta |\mathbf{x}\sim Beta\left(
a+\sum\nolimits_{i=1}^{n}x_{i},b+\sum\nolimits_{i=1}^{n}N_{i}-\sum%
\nolimits_{i=1}^{n}x_{i}\right)
\]

بالتالي فإن حساب متوسط (posterior mean) التوزيع اللاحق  تعطى كما يلي:

\[
E\left( \theta |\mathbf{x}\right) =\frac{a+\sum\nolimits_{i=1}^{n}x_{i}}{%
a+b+\sum\nolimits_{i=1}^{n}N_{i}}
\]

كذلك وتباينه (posterior variance) هو :

\[
Var\left( \theta |\mathbf{x}\right) =\frac{\left(
a+\sum\nolimits_{i=1}^{n}x_{i}\right) \left(
b+\sum\nolimits_{i=1}^{n}N_{i}-\sum\nolimits_{i=1}^{n}x_{i}\right) }{\left(
a+b+\sum\nolimits_{i=1}^{n}N_{i}\right) ^{2}\left(
1+a+b+\sum\nolimits_{i=1}^{n}N_{i}\right) }.
\]

مثال(2): نفرض أن لدينا عينة عشوائية $x_{1},x_{2},…,x_{n}$ تتبع توزيع بواسون (Poisson distribution) والذي يمثل بدالة الكتلة الإحتمالية (Probablity mass function) التالية:

\[
f\left( x_{i};\lambda \right) =\frac{\lambda ^{x_{i}}e^{-\lambda }}{x_{i}!}
\]

نفرض أن التوزيع الأولي (prior distribution) لـ $\lambda $ هو توزيع جاما (gamma distribution) والذي يمثل بالدالة:

\[
p\left( \lambda \right) =\frac{b^{a}}{\Gamma \left( a\right) }\lambda
^{a-1}e^{-b\lambda }
\]

بالتالي، يمكن كتابة التوزيع اللاحق (posterior distribution) كما يلي:

\begin{eqnarray*}
p\left( \lambda |x\right) &\propto &L(x|\lambda )p\left(
\lambda \right) \\[5pt]
&\propto &\lambda ^{\sum\nolimits_{i=1}^{n}x_{i}}e^{-n\lambda }\times
\lambda ^{a-1}e^{-b\lambda } \\[5pt]
&\propto &\lambda ^{a-1+\sum\nolimits_{i=1}^{n}x_{i}}e^{-n\lambda -b\lambda
} \\[5pt]
&\propto &\lambda ^{\left( a+\sum\nolimits_{i=1}^{n}x_{i}\right)
-1}e^{-\left( n+b\right) \lambda }
\end{eqnarray*}

والذي يمكن كتابته كتوزيع جاما كما يلي:

\[
\lambda |\mathbf{x}\sim Gamma\left(
a+\sum\nolimits_{i=1}^{n}x_{i},n+b\right)
\]

وبالتالي متوسط التوزيع اللاحق وتباينة تعطى من خلال:

\[
E\left( \lambda |x\right) =\frac{a+\sum\nolimits_{i=1}^{n}x_{i}}{%
n+b}
\]

\[
Var\left( \lambda |x\right) =\frac{a+\sum\nolimits_{i=1}^{n}x_{i}}{%
\left( n+b\right) ^{2}}.
\]

د. عزيز عوض الله الجعيد
دكتوراه في الإحصاء، عالم بيانات، مبرمج، مهتم في التحليل المتقدم، والبيانات الضخمة والذكاء الاصطناعي، لمزيد من المعلومات أضغط هنا

  • YouTube
جميع الحقوق محفوظة © موقع د. عزيز