يتطلب تنفيذ علم البيانات لأي مشكلة مجموعة من المهارات ويُعد التعلم الآلي جزءًا لا يتجزأ من مجموعة الوسائل، وللقيام بعلوم البيانات يجب أن تعرف خوارزميات التعلم الآلي المختلفة المستخدمة لحل أنواع مختلفة من المشكلات، حيث لا يمكن أن تكون خوارزمية واحدة هي الأفضل لجميع أشكال حالات الاستخدام وكما تجد هذه الخوارزميات تطبيقًا في مهام مختلفة، مثل: التنبؤ والتصنيف والتجميع وما إلى ذلك من مجموعة البيانات تحت الدراسة.
أشكال خوارزميات علوم البيانات
1- الانحدارالخطي Linear Regression
الانحدار الخطي هو طريقة لقياس العلاقة بين متغيرين مستمرين، والمتغيرين هُما المتغير المستقل (x) والمتغير المعتمد (y)، وفي حالة الانحدار الخطي البسيط تكون القيمة المستقلة هي قيمة التوقع وهي قيمة واحدة فقط، يمكن وصف العلاقة بين (x) و(y) على النحو التالي:
y = mx + c
حيث (m) هو الميل و(c) هو التقاطع، وبناءً على المخرجات المتوقعة والمخرجات الفعلية تتم عملية الحساب.
2. الانحدار اللوجستي Logistic Regression
يستخدم الانحدار اللوجستي للتصنيف الثنائي لنقاط البيانات أي البيانات الثنائية، حيث يقوم بتصنيف فئوي ينتج عنه مخرجات تنتمي إلى أي من الفئتين (1 أو 0)، وعلى سبيل المثال التنبؤ بما إذا كانت ستمطر أم لا وبناءً على حالة الطقس هو مثال على الانحدار اللوجستي.
الجزءان المهمان من الانحدار اللوجستي هما الفرضية والمنحنى السيني وباستخدام هذه الفرضية يتم استمداد احتمالية وقوع حدث، بحيث تتلاءم البيانات التي يتم إنتاجها من فرضيتنا مع وظيفة السجل التي تشكل في النهاية منحنى على شكل حرف (S) يسمى “السيني”، وبناءً على وظيفة السجل هذه يمكن تحديد فئة الفصل:
1 / (1 + e^-x)
وهنا، يمثل (e) قاعدة اللوغاريتم الطبيعي ونحصل على منحنى على طريقة حرف (S) بقيم بين (0 و1)، كما تم وضع معادلة الانحدار اللوجستي على النحو التالي:
y = e ^ (b0 + b1 * x) / (1 + e ^ (b0 + b1 * x))
أمّا (b0 وb1) معاملات الإدخال (x)، ويتم تقدير هذه المعاملات باستخدام البيانات من خلال “تقدير الاحتمالية القصوى”.
3. خوارزمية K-Means Clustering
وفقًا للتعريف الرسمي لـ (K-mean clustering) هو نوع من خوارزمية التعلم الآلي غير واقعة للمراقبة وتجزء مجموعة من البيانات التي تتضمن على قيم (n) إلى مجموعات فرعية (k)، وتنتمي كل قيمة (n) إلى المجموعة (k) ذات أقرب متوسط وهذا يعني أنّه نظرًا لمجموعة من الكائنات، فإنّه يتم تقسيم تلك المجموعة إلى عدة مجموعات فرعية.
كما يتم تشكيل هذه المجموعات الفرعية على أساس تشابهها ومسافة كل نقطة بيانات في المجموعة الفرعية مع متوسط النقطه الوسطى الخاصة بهم، و(K-mean clustering) هو الشكل الأكثر انتشاراً لخوارزمية التعلم ومن السهل فهمها وتنفيذها، الهدف من مجموعة الوسائل (K) هو تقليل المسافة الإقليدية (Euclidean) التي تمتلكها كل نقطة من النقطه الوسطى للمجموعة، ويُعرف هذا باسم التباين داخل المجموعة ويمكن تصغيره باستخدام دالة الخطأ التربيعية التالية:
حيث: (J) هي الوظيفة الموضوعية للنقطة الوسطى للكتلة، و(K) هي عدد الكتل و(n) هي عدد الحالات و(C) هو عدد النقط الوسطى و(j) هو عدد المجموعات، وكذلك (X) هي نقطة البيانات المعطاة التي يتعين علينا من خلالها تحديد المسافة الإقليدية إلى النقطه الوسطى.
مبدأ عمل خوارزمية K-Means Clustering
- القيام بتهيئة نقاط (k) واختيارها بشكل عشوائي، وهذه النقاط (k) هي الوسيلة.
- استخدام المسافة الإقليدية لإيجاد نقاط البيانات الأقرب إلى مركزهم في الكتلة.
- ثم يتم حساب متوسط جميع النقاط في المجموعة التي تجد النقطه الوسطى الخاصة بهم.
- تتم عملية التكرار بشكل متكرر الخطوات (1 و2 و3) حتى يتم تخصيص جميع النقاط لمجموعاتها الخاصة.
4. تحليل المكون الرئيسي PCA
يُعد البعد أحد أهم جزء في علم البيانات وهناك عدة أبعاد في البيانات ويتم تمثيل الأبعاد كـ (n)، وعلى سبيل المثال افترض أنه بصفتك عالم بيانات يعمل في شركة مالية، عليك التعامل مع بيانات العملاء التي تتضمن درجات الائتمان والتفاصيل الشخصية والراتب ومئات من المعلومات الأخرى.
من أجل فهم الأدوات المهمة التي تساهم في النموذج، يتم استخدام تقليل الأبعاد، و(PCA) هو نوع من خوارزمية التخفيض، وبمساعدة (PCA) يمكن تقليل عدد الأبعاد مع الاحتفاظ بجميع الأبعاد المهمة في النموذج كما توجد (PCAs) بناءً على عدد الأبعاد وكل واحدة متعامدة مع الأخرى، وحاصل الضرب القياسي لجميع أجهزة الكمبيوتر المتعامدة هو (0).
ملاحظة:“PCA” هي اختصار لـ “Principal Component Analysis”.
5. الشبكات الاصطناعية Artificial Neural Networks
تم تصميم الشبكات على غرار الخلايا العصبية في الدماغ البشري، وهي تتألف من العديد من طبقات الخلايا التي يتم تنظيمها لنقل المعلومات من طبقة الإدخال إلى طبقة الإخراج، وبين طبقة الإدخال وطبقة الإخراج وتوجد طبقات مخفية موجودة.
يمكن أن تكون هذه الطبقات المخفية كثيرة أو واحدة فقط، حيث تُعرف الشبكة البسيطة التي تتكون من طبقة مخفية واحدة باسم (Perceptron)، كما توجد طبقة إدخال تأخذ المدخلات في شكل متجه وبعد ذلك يتم تمرير هذا الإدخال إلى الطبقة المخفية، التي تتكون من وظائف رياضية مختلفة تقوم بإجراء العمليات الحسابية على المدخلات المحددة.
6. استخدام طوبولوجيا الأشجار لإتخاذ القرار Decision Trees
بمساعدة أشجار القرار يمكن القيام بكل من التنبؤ والتصنيف، ويتم اعتماد أشجار القرار لوضع القرارات بمجموعة محددة من المدخلات، وباستخدام نفس المبدأ يتم بناء شجرة هرمية للوصول إلى نتيجة من خلال عملية وضع القرارات وهناك خطوتان لبناء شجرة هي الاستقراء والتجزئة، والاستقراء هو العملية التي نبني فيها الشجرة، بينما في التجزئة يتم تبسيط الشجرة عن طريق إزالة التعقيدات.
7. الشبكات المتكررة Recurrent Neural Networks
تُستخدم الشبكات المتكررة لتعلم المعلومات المتسلسلة، حيث تتكون هذه المشاكل المتسلسلة من دورات تستفيد من الخطوات الزمنية الأساسية، ومن أجل حساب هذه البيانات تتطلب الشبكات الاصطناعية خلية ذاكرة منفصلة لتخزين بيانات الخطوة السابقة.
كما يتم استخدام البيانات التي يتم تمثيلها في سلسلة من الخطوات الزمنية، وهذا يجعل (RNN) خوارزمية مثالية لحل المشاكل المتعلقة بمعالجة النص، وفي سياق معالجة النص تُعتبر (RNNs) مفيدة للتنبؤ بتسلسل الكلمات في المستقبل.
كما يشار إلى (RNNs) المكدسة تمامًا باسم الشبكات العميقة المتكررة، بحيث تُستخدم (RNNs) في إنشاء النصوص وتأليف الموسيقى والتنبؤ بالسلاسل الزمنية، كما تستخدم روبوتات المحادثة وأنظمة التوصية وأنظمة التعرف على الكلام بنيات مختلفة للشبكات المتكررة.
ملاحظة:“RNNs” هي اختصار لـ “Recurrent Neural Networks”.
8. خوارزمية Apriori
في عام (1994م)، طور (R. Agrawal) و(R. Srikant) خوارزمية (Apriori)، بحيث تُستخدم هذه الخوارزمية للعثور على مجموعات العناصر المتكررة باستخدام قاعدة الارتباط المنطقية، كما تسمى هذه الخوارزمية (Apriori) لأنّها تعتمد المعرفة “المسبقة” بالخصائص في مجموعة العناصر.
في هذه الخوارزمية يتم تطبيق نهج تكراري، وهذا النهج على مستوى الحكمة، حيث تقوم بالتعديل على مجموعة العناصر التي تتكرر في (k) للعثور على مجموعة عناصر (k + 1)، كما يقدم (Apriori) الافتراضات التالية:
- يجب أن تكون المجموعات الفرعية لمجموعة العناصر المتكررة أيضًا متكررة.
- يجب أيضًا أن تكون المجموعات الفائقة لمجموعة العناصر غير المتكررة متكررة.
مكونات خوارزمية Apriori
- الدعم.
- الثقة.
- النقل.