موقع د. عزيز الجعيد
  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

علم البيانات والذكاء الاصطناعي

  • الرئـيـسـية

  • الأقسام

    • علم البيانات والذكاء الإصطناعي

    • ذكاء الأعمال

    • لغة البرمجة بايثون

    • مقالات متنوعـة

    • لغة البرمجة آر R

    • الإحــــــصــــــاء

    • البيانات المفتوحة

  • عـنــي

  • تواصل معي

معالجة البيانات المفقودة باستخدام لغة البرمجة آر R

27/08/2019 | لغة البرمجة آر R | تعليق واحد

البيانات المفقودة (Missing Data) هي من القضايا الشائعة في مجال تحليل البيانات ويمكن أن يكون لها تأثير سلبي على الاستنتاجات التي يتم استخلاصها من خلال تحليل البيانات اذا لم يتم التعامل معها بالطريقة الصحيحة. المخطط ادناه يسلط الضوء بشكل مختصر على طريقة التعامل معها من خلال:

  • حذف (deletion) القيم المفقودة.
  • تعويض القيم المفقودة (imputation): وهو عملية استبدال البيانات المفقودة بقيم بديلة يتم تقديرها من خلال المقاييس والاساليب الإحصائية.

في الخطوات التالية سوف نوضح كيف يتم يتم التعامل مع البيانات المفقودة باستخدام لغة البرمجة آر، في البداية سوف نستخدم البيانات Rdata:

In:
Rdata=read.csv("Rdata.csv")

ثم نتبع التالي:

اولاً: حذف الحالات (الصفوف) التي تحوي عدد من القيم المفقودة قد تؤدي الى تحيز التحليل الاحصائي ، مثلاً سوف نقوم بحذف الصفوف التي تحوي اكثر من قيمة مفقودة.

In:
for (r in 1:nrow(Rdata)){
  if (sum(is.na(Rdata[r,]))>1){
    Rdata=Rdata[-r,]}
}

ثانياً: كتابة دالة تعويض القيم المفقودة (imputation)، مثلاً سوف نكتب دالة لتعويض البيانات المفقودة العددية بالوسط (mean) وتعويض البيانات الفقودة غير العددية بالمنوال (mode) كالتالي:

In:
getimputation = function(x) {
  if (is.numeric(Rdata[,i])==TRUE){
    mean(x, na.rm = TRUE)}
  else{
  uniq = unique(x)
  uniq[which.max(tabulate(match(x, uniq)))]
}}

ثالثاً: عملية تعويض القيم المفقودة

In:
for(i in 1:(ncol(Rdata))){
    Rdata[is.na(Rdata[,i]), i] = getimputation(Rdata[,i])
}

 

جميع الحقوق الفكرية لهذا المقال محفوظة © موقع د. عزيز، يمنع إعادة نشره في موقع آخر

مقالات ذات صلة:

  • برنامج آر R

    البرنامج الإحصائي آر R هو واحد من أشهر البرامج الإحصائية. هذا البرنامج يعتمد على لغة البرمجة R والتي قام بتطويرها كلاً... برنامج آر R
    اقرأ المزيد
  • آر استوديو (RStudio)

    آر استوديو هو بيئة تشغيل للبرنامج الإحصائي آر R يحوي مجموعة من النوافد والأدوات المصممة بشكل رائع والتي تساعد على... آر استوديو (RStudio)
    اقرأ المزيد
  • مقدمة في لغة البرمجة آر R

    هذا الموضوع سوف نوضح بالتفصيل بعض الأساسيات في لغة البرمجة آر R والتي تمثل الخطوه الأولى في فهم هذه اللغة الهامة ويمكن... مقدمة في لغة البرمجة آر R
    اقرأ المزيد

التعليقات 1

  1. ا.د.الدرديري فضل إبراهيم فضل بتاريخ سبتمبر 5, 2019 - 6:32 م

    عمل مفرح وجميل لنشر هذه اللغة الرائدة

شارك بتعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.

د. عزيز عوض الله الجعيد
دكتوراه في الإحصاء، عالم بيانات، مبرمج، مهتم في التحليل المتقدم، والبيانات الضخمة والذكاء الاصطناعي، لمزيد من المعلومات أضغط هنا

  • YouTube
جميع الحقوق محفوظة © موقع د. عزيز