ما هو التعرف الضوئي على الحروف OCR في الوسائط المتعددة

اقرأ في هذا المقال


يصف التعرف الضوئي على الأحرف أو قارئ الأحرف البصري أو (OCR) عملية تحويل النص المطبوع إلى تنسيق رقمي مع معالجة الصور، في هذه المقالة، سنناقش ماهية التعرف الضوئي على الحروف وكيف يعمل، بالإضافة إلى بعض أفضل الأدوات والتقنيات الخاصة بالتعرف الضوئي على الحروف.

ما هو التعرف الضوئي على الحروف OCR

وهي تقنية برمجية تحدد النص إلكترونيًا (مكتوبًا أو مطبوعًا) داخل ملف صورة أو مستند مادي، مثل مستند ممسوح ضوئيًا، ويحوله إلى نموذج نصي يمكن قراءته آليًا لاستخدامه في البيانات ليتم معالجته، باختصار، يساعد هذا برنامج في تحويل الصور أو المستندات المادية إلى نموذج يمكن البحث فيه.

من أمثلة التعرف الضوئي على الحروف أدوات استخراج النص ومحولات (PDF) إلى (txt) ووظيفة البحث عن الصور من (Google)، كما يمكن لبرنامج (OCR) تحويل الأحرف الموجودة على الصفحة إلى مستند نصي يمكن قراءته بواسطة برنامج معالجة الكلمات، ويمكن لبرامج (OCR) الأكثر تقدمًا الاحتفاظ بتنسيق المستند في التحويل.

كيف تتم عملية التعرف الضوئي على الحروف

في ما يلي، سوف نعرض كيفية عمل التعرف الضوئي على الحروف وشرح الخطوات الرئيسية لتقنيات التعرف الضوئي على الحروف التقليدية:

1. مسح المستند ضوئيًا

هذه هي الخطوة الأولى لـ (OCR) التي تتصل بماسح ضوئي لمسح المستند ضوئيًا، حيث يؤدي مسح المستند ضوئيًا إلى تقليل عدد المتغيرات التي يجب أخذها في الاعتبار عند إنشاء برنامج التعرف الضوئي على الحروف نظرًا لأنه يوجد مدخلات، أيضًا، تعزز هذه الخطوة على وجه التحديد كفاءة العملية بأكملها من خلال ضمان محاذاة وتحجيم مثاليين للمستند المحدد، ويمكن أن تتضمن هذه الخطوة الأولية أيضًا اكتشاف الكائن، لتركيز مهام معالجة الرؤية اللاحقة على مناطق معينة من الصورة.

2. تنقية الصورة

في هذه الخطوة، يعمل برنامج التعرف الضوئي على الأحرف على تحسين عناصر المستند التي يجب التقاطها، حيث يتم التخلص من أي عيوب مثل جزيئات الغبار، ويتم تنعيم الحواف والبكسل للحصول على نص عادي وواضح، حيث تسهل هذه الخطوة على البرنامج التقاط البيانات مع القدرة على “رؤية” الكلمات التي يتم إدخالها بوضوح، على سبيل المثال، بدون مناطق مظلمة غير منتظمة، كما تعتبر مهام معالجة الصور هذه ضرورية في جميع أنواع خطوط  الرؤية، لتوضيح الصور أو تفتيحها تلقائيًا، يوفر (OpenCV) مجموعة أدوات تُستخدم غالبًا لمثل هذه المهام.

3. تحويل الصورة إلى وثيقة ثنائية

يتم بعد ذلك تحويل وثيقة الصورة المحسنة إلى صورة وثيقة ثنائية المستوى، تحتوي فقط على ألوان أبيض وأسود، حيث يتم تحديد المساحات السوداء أو الداكنة كأحرف، في الوقت نفسه، يتم تحديد المناطق البيضاء أو الفاتحة كخلفية، تهدف هذه الخطوة إلى تطبيق التجزئة على المستند للتمييز بسهولة بين النص الأمامي والخلفية، مما يسمح بالتعرف الأمثل على الأحرف.

4. التعرف على الأحرف

في هذه الخطوة، تتم معالجة المناطق السوداء بشكل أكبر لتحديد الحروف أو الأرقام، عادةً ما يركز التعرف الضوئي على الحروف على حرف واحد أو كتلة نصية في كل مرة، يتم التعرف على الأحرف باستخدام أحد النوعين التاليين من الخوارزميات:

  • التعرف على الأنماط: تتضمن خوارزمية التعرف على الأنماط إدخال نص في خطوط وتنسيقات مختلفة في برنامج التعرف الضوئي على الحروف، ثم يتم استخدام البرنامج المعدل للمقارنة والتعرف على الأحرف في المستند الممسوح ضوئيًا.
  • الكشف عن الميزات: من خلال خوارزمية اكتشاف الميزات، يطبق برنامج (OCR) القواعد التي تأخذ في الاعتبار ميزات حرف أو رقم معين لتحديد الأحرف في المستند الممسوح ضوئيًا، تتضمن أمثلة الميزات عدد الخطوط الزاوية أو الخطوط المتقاطعة أو المنحنيات المستخدمة لمقارنة وتحديد الأحرف، حيث أن تقنيات التعرف على النص هذه هي الأساس لمعظم أساليب التعلم العميق للتعرف الضوئي على الحروف.

5. التحقق من الدقة

بعد التعرف الناجح على الأحرف، تتم مقارنة النتائج من خلال استخدام القواميس الداخلية لبرنامج التعرف الضوئي على الحروف لضمان الدقة، حيث يتم قياس دقة التعرف الضوئي على الحروف عن طريق أخذ ناتج تحليل أجراه (OCR) ومقارنته بمحتويات الإصدار الأصلي، هناك طريقتان نموذجيتان لتحليل دقة برنامج (OCR):

  • دقة على مستوى الأحرف: حساب عدد الأحرف التي تم اكتشافها بشكل صحيح.
  • دقة على مستوى الكلمات: حساب عدد الكلمات التي تم التعرف عليها بشكل صحيح.

في معظم الحالات، تكون الدقة بنسبة (98-99٪) هي معدل الدقة المقبول، ويتم قياسه على مستوى الصفحة (وليس مستوى الخوارزمية)، هذا يعني أنه في صفحة تتكون من حوالي (1000) حرف، يجب تحديد (980-990) حرفًا بدقة بواسطة برنامج التعرف الضوئي على الحروف.

مزايا التعرف الضوئي على الحروف

يقدم التعرف البصري على الأحرف مجموعة واسعة من الفوائد، منها:

  • دقة محسّنة: يعمل التعرف على الأحرف المستند إلى البرامج على التخلص من الأخطاء البشرية، مما يؤدي إلى تحسين الدقة.
  • تسريع العمليات: تقوم التقنية بتحويل البيانات غير المهيكلة إلى معلومات قابلة للبحث، مما يوفر البيانات المطلوبة المتاحة بمعدلات أسرع وبالتالي تسريع العمليات التجارية.
  • فعالية من حيث التكلفة: لا تتطلب تقنية التعرف الضوئي على الحروف الكثير من الموارد مما يقلل من تكاليف المعالجة وبالتالي يقلل التكاليف الإجمالية للأعمال.
  • تعزيز رضا العملاء: تضمن إمكانية الوصول إلى البيانات القابلة للبحث من قبل العملاء تجربة جيدة، مما يضمن رضا العملاء بشكل أفضل.
  • تحسين الإنتاجية: توفر سهولة الوصول إلى البيانات القابلة للبحث بيئة خالية من الإجهاد للموظفين، مما يسمح لهم بالتركيز على الأهداف الرئيسية، وتعزيز إنتاجية الأعمال.

ما هي ميزة التعرف على النص STR

في رؤية الكمبيوتر، يمكن للآلات قراءة النص في المشاهد الطبيعية عن طريق اكتشاف مناطق النص أولاً، واقتصاص تلك المناطق، ومن ثم التعرف على النص في تلك المناطق، حيث تسمى مهمة الرؤية المتمثلة في التعرف على النص من المناطق التي تم اقتصاصها التعرف على نص المشهد (STR).

كما تتيح (STR) قراءة إشارات الطرق واللوحات الإعلانية والشعارات والأشياء المطبوعة مثل: النص على القمصان وفواتير الورق وما إلى ذلك، وتشمل تطبيقات (STR) حالات الاستخدام العملي مثل: السيارات ذاتية القيادة والواقع المعزز وتحليل البيع بالتجزئة والتعليم والأجهزة الخاصة المكفوفين وغيرهم.

ما هو الفرق بين OCR و STR

بمقارنة التعرف الضوئي على الحروف مع (STR)، يمكن تطبيق التعرف الضوئي على الحروف (OCR) حيث يتم توفير سمات النص في نموذج إدخال موحد، ومن ثم، فإن (STR) قادرة على قراءة النص مع أنماط خطوط مختلفة، وأشكال نصية، وإضاءة، واتجاه، وإغلاق (نص مخفي جزئيًا) ، وظروف كاميرا غير متسقة، بشكل عام، يلزم التعرف على نص المشهد لقراءة النص باستخدام خوارزميات الذكاء الاصطناعي في سيناريوهات العالم الحقيقي التي تتضمن بيئات طبيعية صعبة للغاية مع إدخال صور مشوشة أو ضبابية أو مشوهة.


شارك المقالة: