ما هي الشبكة العصبونية التلافيفية CNN في علم البيانات

اقرأ في هذا المقال


إنّ (CNN) هي واحدة من أكثر أنواع خوارزميات التعلم الآلي شيوعًا، والالتفاف هو تطبيق بسيط لمرشح لإدخال ينتج عنه تنشيط يتم تمثيله كقيمة عددية، ومن خلال تطبيق المرشح نفسه بشكل متكرر على بيانات ما يتم إنشاء خريطة لعمليات التنشيط تسمى خريطة المعالم، ويشير هذا إلى مواقع ونقاط القوة للميزات المكتشفة.

الشبكات العصبونية التلافيفية في علم البيانات

الشبكات التلافيفية في علم البيانات: هي فئات فرعية من التعلم الآلي وهي في قلب خوارزميات التعلم الكبير، وهي تتشكل من طبقات العقدة التي تتضمن على طبقة مصدر وطبقة كامنة منفردة أو أعلى وطبقة مخرجات، وكل عقدة تتصل بأخرى ولها وزن وعتبة مرتبطة، وإذا كان ناتج أي عقدة فردية أعلى من قيمة العتبة المحددة يتم تنشيط تلك العقدة وإرسال البيانات إلى الطبقة التالية من الشبكة وإلّا فلن يتم تمرير أي بيانات إلى الطبقة التالية من الشبكة.

ملاحظة: “CNN” هي اختصار لـ “Convolutional Neural Networks”.

أنواع الشبكات العصبونية التلافيفية

تُعد المدركات متعددة الطبقات جيدة في مشاكل التنبؤ بالتصنيف باستعمال المدخلات المصنفة، حيث إنّها شبكات مرنة يمكن تطبيقها على مجموعة متنوعة من السيناريوهات بما في ذلك التعرف على الصور، حيث يتم تحسين الشبكات المتكررة لمشاكل التنبؤ بالتسلسل باستخدام خطوة واحدة أو أكثر كمدخلات وخطوات متعددة كإخراج، وكما إنّها قوية في تفسير بيانات السلاسل الزمنية ولكنها لا تعتبر فعالة في تحليل الصور.

يتم تصميم الشبكات التلافيفية خصيصًا لتحديد بيانات الصورة إلى متغيرات الإخراج، وهي قوية بشكل خاص في تطوير التمثيلات الداخلية للصور ثنائية الأبعاد التي يمكن استخدامها لمعرفة الموضع وقياس الهياكل الثابتة، وهذا يجعلها قوية بشكل خاص في العمل مع البيانات التي تحتوي على مكون علاقة مكانية.

أصبحت (CNN) نموذج الانتقال للعديد من تطبيقات رؤية الكمبيوتر الأكثر تقدمًا للتعلم العميق مثل الكشف على الوجه والتعرف على خط اليد ورقمنة النص، وبالاعتماد على التطبيقات التي تتضمن معالجة الصور فقد ثبت أنّ نموذج (CNN) يقدم أفضل النتائج وأكبر كفاءة حسابية، وفي حين أنّه ليس نموذج التعلم العميق الوحيد المناسب لهذا المجال إلّا أنّه خيار الإجماع وسيكون محور الابتكار المستمر في المستقبل.

هناك أنواع مختلفة من الشبكات التلافيفية، والتي تُستخدم لحالات استخدام أنواع بيانات مختلفة، على سبيل المثال تُستخدم الشبكات التلافيفية المتكررة بشكل شائع لمعالجة اللغة الطبيعية والتعرف على الكلام، بينما تُستعمل الشبكات التلافيفية (ConvNets أو CNN) غالبًا لمهام التصنيف ورؤية الكمبيوتر.

حالات استخدام الشبكات التلافيفية

شبكات (CNN) هي أدوات تحليل الصور التي تستخدمها الأجهزة الآن لتحديد الكائنات، و(CNNs) هي أساسيات اليوم للمركبات ذاتية القيادة والتنقيب عن النفط وأبحاث الطاقة الاندماجية، ويمكنها المساعدة في اكتشاف الأمراض بشكل أسرع في التصوير الطبي، وأصبح الكثير من تطبيقات الذكاء الاصطناعي هذه ممكنة بفضل عقود من التقدم في الشبكات التلافيفية العميقة والخطوات الواسعة في الحوسبة عالية الأداء من وحدات معالجة الرسومات لمعالجة كميات هائلة من البيانات.

وقبل (CNNs) يتم اعتماد طرق استخراج الميزات اليدوية والمستهلكة للوقت لتعيين الكائنات في الصور، ومع ذلك تتيح الشبكات التلافيفية الآن نهجًا أكثر قابلية للتوسع لتصنيف الصور ومهام التعرف على الكائنات، والعمل على استعمال مبادئ الجبر الخطي وخاصةً مضاعفة المصفوفة لتعيين الأنماط داخل الصورة ومع ذلك يمكن أن تكون مناسبة من الناحية الحسابية وتتطلب وحدات معالجة رسومية (GPUs) لتدريب النماذج.

ملاحظة:“GPU” هي اختصار لـ “Graphics Processing Unit”.

كيف تعمل الشبكات العصبونية التلافيفية

1- الطبقة التلافيفية

الطبقة التلافيفية هي الطبقة الأولى من الشبكة التلافيفية، وبينما يمكن أن تتبع الطبقات التلافيفية بطبقات تلافيفية إضافية أو طبقات تجميع فإنّ الطبقة المتصلة بالكامل هي الطبقة النهائية، ومع كل طبقة تزداد شبكة (CNN) في تعقيدها ممّا يؤدي إلى تحديد أجزاء أكبر من الصورة، وتركز الطبقات السابقة على الميزات البسيطة مثل: الألوان والحواف ومع تقدم بيانات الصورة عبر طبقات (CNN)، وتبدأ في التعرف على العناصر أو الأشكال الأكبر للكائن حتى تخصص أخيرًا الكائن المقصود.

الطبقة التلافيفية هي لبنة البناء الأساسية لشبكة (CNN)، وهي المكان الذي تحدث فيه غالبية العمليات الحسابية، حيث يتطلب بعض العناصر وهي بيانات الإدخال وفلتر وخريطة المعالم، ولنفترض أن الإدخال سيكون صورة ملونة والتي تتكون من مصفوفة من وحدات البكسل ثلاثية الأبعاد، وهذا يعني أن الإدخال سيكون له ثلاثة أبعاد ارتفاع وعرض وعمق والتي تتوافق مع (RGB) في الصورة.

ملاحظة: “RGB” هي اختصار لـ “Red Green Blue”.

2- طبقة التجميع

تقوم طبقات التجميع والمعروفة أيضًا بـ “الاختزال” بخفض الأبعاد ممّا يقلل من عدد المعلمات في الإدخال، وعلى غرار الطبقة التلافيفية تكتسح عملية التجميع مرشحًا عبر المدخل بالكامل، لكنّ الاختلاف هو أنّ هذا المرشح لا يحتوي على أي أوزان وبدلاً من ذلك تطبق (kernel) دالة تجميع على القيم الموجودة داخل الحقل الاستقبالي، لملء صفيف الإخراج وهناك نوعان رئيسيان من التجميع:

  • (Max pooling): عندما يتحرك المرشح عبر المدخلات فإنّه يحدد البكسل بأقصى قيمة لإرسالها إلى صفيف الإخراج، كجانب جانبي يميل هذا النهج إلى الاستخدام في كثير من الأحيان مقارنة بمتوسط ​​التجميع.
  • متوسط ​​التجميع: عندما يتحرك المرشح عبر الإدخال فإنّه يحسب متوسط ​​القيمة داخل الحقل المستقبلي لإرساله إلى صفيف الإخراج.

بينما يتم فقدان الكثير من المعلومات في طبقة التجميع إلّا أن لها أيضًا عددًا من الفوائد لشبكة (CNN)، حيث إنّها تساعد على تقليل التعقيد وتحسين الكفاءة والحد من مخاطر التجهيز الزائد.

3- الطبقة المرتبطة بالكامل

يصف اسم الطبقة المرتبطة بالكامل نفسه بشكل مناسب، كما لا ترتبط قيم البكسل الخاصة بالصورة المدخلة مباشرةً بطبقة الإخراج في طبقات متصلة جزئيًا، ومع ذلك في الطبقة المرتبطة بالكامل ترتبط كل عقدة في طبقة المخرجات مباشرةً بعقدة في الطبقة السابقة.

تؤدي هذه الطبقة مهمة التصنيف بناءً على الميزات المستخرجة من الطبقات السابقة ومرشحاتها المتنوعة، بينما تميل الطبقات التلافيفية والتجميعية إلى استخدام العديد من الوظائف، وتستفيد طبقات (FC) عادةً من وظيفة تنشيط (softmax) لتصنيف المدخلات بشكل مناسب ممّا ينتج عنه احتمال من (0 إلى 1).

العلاقة بين الشبكات التلافيفية والتصور الحاسوبي

تعمل الشبكات  التلافيفية على التعرف على الصور ومهام الرؤية الحاسوبية، ورؤية الكمبيوتر هي أحد مجالات الذكاء الاصطناعي (AI)، والتي تمكن أجهزة الكمبيوتر والأنظمة من استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى وبناءً على هذه المدخلات يمكنها اتخاذ إجراءات، وهذه القدرة على تقديم توصيات تميزها عن مهام التعرف على الصور، كما يمكن رؤية بعض التطبيقات الشائعة لهذه الرؤية الحاسوبية اليوم في:

  • التسويق: حيث تقدم منصات التواصل الاجتماعي اقتراحات حول من قد يكون في الصورة التي تم نشرها في ملف التعريف ممّا يسهل تمييز الأصدقاء في ألبومات الصور.
  • الرعاية الصحية: يتم دمج رؤية الكمبيوتر في تقنية الأشعة ممّا يتيح للأطباء تحديد الأورام السرطانية بشكل أفضل في علم التشريح الصحي.
  • البيع بالتجزئة: يتم دمج البحث المرئي في بعض منصات التجارة الإلكترونية ممّا يسمح للعلامات التجارية بالتوصية بالعناصر التي من شأنها أن تكمل خزانة الملابس الحالية على سبيل المثال.
  • السيارات: على الرغم من أن عصر السيارات ذاتية القيادة لم يظهر تمامًا فقد بدأت التكنولوجيا الأساسية تشق طريقها إلى السيارات ممّا أدى إلى تحسين سلامة السائق والركاب من خلال ميزات مثل اكتشاف خط المسار.

ملاحظة:“AI” هي اختصار لـ “Artificial intelligence”.


شارك المقالة: