في هذا المقال سوف نستعرض كيف يمكن قراءة ملفات البيانات بأنواعها المختلفة باستخدام لغة البرمجة بايثون. في البداية نحتاج إلى تحديد دليل العمل (working directory) – موقع الملفات التي سوف نقوم بقراءتها كما يلي:
In: import os os.chdir('*****')
ثم بعد ذلك يمكن استخدام الطرق التالية:
أولاً: قراءة ملف csv
فمثلاً لقراءة ملف البيانات mydata يمكن استخدام الكود التالي:
In: import pandas as pd mydata = pd.read_csv('mydata.csv',sep=',',header=0) print(mydata.iloc[0:2,]) Out: name age city 0 Ali 20 Riyadh 1 Mohammed 30 Jeddah
حيث هناك عدد من الخيارات تتحكم في مخرج الدالة pd.read_csv ومن أهمها:
sep | يمثل نوع الفواصل بين الأعمدة في ملف البيانات. |
header | 0: الصف الأول يمثل أسماء الأعمدة (افتراضي)، None: لايوجد أسماء للأعمدة. |
names | تحديد أسماء الأعمدة. |
فمثلاً، لتعديل أسماء الأعمدة في المثال أعلاه يمكن استخدام الكود:
In: mydata = pd.read_csv('mydata.csv',sep=',',header=0,names=['first name', 'working years','working city']) print(mydata.iloc[0:2,]) Out: first name working years working city 0 Ali 20 Riyadh 1 Mohammed 30 Jeddah
ثانيا: قراءة ملف txt
فمثلا لقراءة ملف mydata يمكن استخدام الكود التالي:
In: mydata = pd.read_csv('mydata.txt',sep="\t",header=0) print(mydata.iloc[0:2,]) Out: name age city 0 Ali 20 Riyadh 1 Mohammed 30 Jeddah
ثالثاً: قراءة ملف json
فمثلا لقراءة ملف البيانات mydata يمكن استخدام الكود التالي:
In: mydata = pd.read_json('mydata.json') print(mydata.iloc[0:2,]) Out: name age city 0 Ali 20 Riyadh 1 Mohammed 30 Jeddah
دالة مكتبة pandas لقراءة dataset من نوع csv
هناك عدة دوال في مكتبة pandas لقراءة ملفات مختلفة من البيانات