تعد تصفية البيانات مهمة أساسية في تحليل البيانات، مما يسمح للمحللين باستخراج مجموعات فرعية محددة من البيانات التي تفي بمعايير معينة، توفر (R) العديد من المكتبات والوظائف لتصفية البيانات، مما يجعل من السهل تجميع البيانات استنادًا إلى الظروف واستخراج المعلومات ذات الصلة.
كيفية تصفية البيانات في R
إحدى الوظائف الأكثر استخدامًا لتصفية البيانات في (R) هي وظيفة (()subset)، تسمح لك وظيفة (()subset) بتجميع البيانات على أساس الشروط، مثل تحديد الصفوف التي تفي بشرط معين أو تحديد الأعمدة التي تفي بمعيار معين، يكون بناء الجملة لوظيفة (()subset) كما يلي:
subset(data, condition)
- حيث أن البيانات (data) هي اسم مجموعة البيانات، والشرط (condition) هو الشرط الذي يجب الوفاء به.
- على سبيل المثال، لتحديد جميع الصفوف من مجموعة بيانات حيث تكون القيمة الموجودة في عمود “العمر” أكبر من أو تساوي (18)، يمكنك استخدام الشفرة التالية:
subset(data, age >= 18)
- وظيفة أخرى شائعة الاستخدام لتصفية البيانات في (R) هي وظيفة (() filter) من مكتبة (dplyr)، تسمح لك وظيفة (() filter) بتحديد الصفوف بناءً على الشروط باستخدام صيغة أكثر سهولة من وظيفة (()subset)، صيغة الدالة (() filter) هي كما يلي:
filter(data, condition)
- حيث أن البيانات (data) هي اسم مجموعة البيانات، والشرط (condition) هو الشرط الذي يجب الوفاء به.
- على سبيل المثال، لتحديد جميع الصفوف من مجموعة بيانات حيث تكون القيمة الموجودة في عمود “العمر” أكبر من أو تساوي (18)، يمكنك استخدام الشفرة التالية:
filter(data, age >= 18)
- يمكن أيضًا استخدام وظيفة التصفية (() filter) لتصفية البيانات بناءً على شروط متعددة باستخدام عوامل تشغيل منطقية مثل: “& (and) and | (or)”.
- وظيفة أخرى مفيدة لتصفية البيانات في (R) هي وظيفة (() slice)، والتي تسمح لك بتحديد الصفوف بناءً على موضعها في مجموعة البيانات، على سبيل المثال، لتحديد الصفوف الخمسة الأولى من مجموعة البيانات، يمكنك استخدام الكود التالي:
slice(data, 1:5)
تعد تصفية البيانات مكونًا مهمًا لتحليل البيانات، مما يسمح للمحللين باستخراج مجموعات فرعية ذات صلة من البيانات التي تلبي معايير محددة. توفر (R) العديد من المكتبات والوظائف لتصفية البيانات، مما يسهل استخراج المعلومات المطلوبة للتحليل، من خلال إتقان هذه الأدوات، يمكن لمحللي البيانات التأكد من أن تحليلهم يعتمد على بيانات دقيقة وذات صلة، مما يؤدي إلى رؤى أكثر موثوقية واتخاذ قرارات أفضل.