اقرأ في هذا المقال
ما هي تقنية التعرف على الكلام؟
التعرف على الكلام، أو تحويل الكلام إلى نص هو قدرة الجهاز أو البرنامج على تحديد الكلمات المنطوقة بصوت عالٍ وتحويلها إلى نص يمكن قراءته. يحتوي برنامج التعرف على الكلام البدائي على مفردات محدودة من الكلمات والعبارات، وقد يتعرف عليها فقط إذا تم التحدث بها بوضوح شديد. البرامج الأكثر تطوراً لديها القدرة على قبول الكلام الطبيعي، واللهجات واللغات المختلفة.
يتم الخلط بين التعرف على الكلام وبين التعرف على الصوت، يركز التعرف على الكلام على ترجمة الكلام من تنسيق لفظي إلى تنسيق نصي بينما يسعى التعرف على الصوت فقط إلى تحديد صوت المستخدم الفردي.
تتوفر العديد من تطبيقات وأجهزة التعرف على الكلام، ولكن الحلول الأكثر تقدمًا تستخدم الذكاء الاصطناعي والتعلم الآلي. فهي تدمج القواعد، والنحو والبنية وتكوين الإشارات الصوتية والصوتية لفهم ومعالجة الكلام البشري، وتطوير الاستجابات مع كل تفاعل.
كيف تعمل تقنية التعرف على الكلام؟
تُستخدم خوارزميات وتقنيات حسابية مختلفة للتعرف على الكلام في نص وتحسين دقة النسخ. فيما يلي شرح موجز لبعض الطرق الأكثر استخدامًا:
- معالجة اللغة الطبيعية (NLP): في حين أن البرمجة اللغوية العصبية ليست بالضرورة خوارزمية محددة مستخدمة في التعرف على الكلام، إلا أن مجال الذكاء الاصطناعي يركز على التفاعل بين البشر والآلات من خلال اللغة ومن خلال الكلام والنص. تدمج العديد من الأجهزة المحمولة التعرف على الكلام في أنظمتها لإجراء بحث صوتي.
- نماذج ماركوف المخفية (HMM): تعتمد نماذج ماركوف المخفية على نموذج سلسلة ماركوف، الذي ينص على أن احتمال حالة معينة يتوقف على الحالة الحالية، وليس حالاتها السابقة. في حين أن نموذج سلسلة ماركوف مفيد للأحداث التي يمكن ملاحظتها، مثل مدخلات النص.
- (N-grams): هذا هو أبسط أنواع نماذج اللغة، والذي يعين الاحتمالات للجمل أو العبارات، N- غرام هو سلسلة من الكلمات. على سبيل المثال، (اطلب البيتزا) عبارة عن 3 جرام و (الرجاء طلب البيتزا) هي 4 جرام.
- الشبكات العصبية (Neural networks): يتم الاستفادة منها بشكل أساسي في خوارزميات التعلم العميق، حيث تعالج الشبكات العصبية بيانات التدريب عن طريق محاكاة الترابط بين الدماغ البشري من خلال طبقات من العقد. تتكون كل عقدة من مدخلات وأوزان و(Threshold) ومخرج. إذا تجاوزت قيمة المخرجات هذه حداً معيناً، فإنها تطلق العقدة (Node) أو تنشطها، وتمرير البيانات إلى الطبقة التالية في الشبكة. تتعلم الشبكات العصبية وظيفة التعيين هذه من خلال التعلم الخاضع للإشراف، والتعديل بناءً على وظيفة الخسارة من خلال عملية نزول التدرج. بينما تميل الشبكات العصبية إلى أن تكون أكثر دقة ويمكنها قبول المزيد من البيانات، إلا أن هذا يأتي بتكلفة كفاءة الأداء لأنها تميل إلى أن تكون أبطأ في التدريب مقارنة بنماذج اللغة التقليدية.
- تخطيط المتحدث (SD): تحدد خوارزميات تخطيط المتحدث وتقسم الكلام حسب هوية المتحدث. يساعد هذا البرامج على تمييز الأفراد بشكل أفضل في المحادثة ويتم تطبيقه بشكل متكرر في مراكز الاتصال التي تميز العملاء ووكلاء المبيعات.
تطبيقات على تقنية التعرف على الكلام:
- السيارات: تعمل أدوات التعرف على الكلام على تحسين سلامة السائق من خلال تمكين أنظمة الملاحة التي يتم تنشيطها صوتياً وقدرات البحث في أجهزة راديو السيارة.
- التكنولوجيا: أصبح المساعدون الافتراضيون مندمجين بشكل متزايد في حياتنا اليومية، لا سيما على أجهزتنا المحمولة. نستخدم الأوامر الصوتية للوصول إليها من خلال هواتفنا الذكية، على سبيل المثال من خلال مساعد (Google) أو من (Apple)، لمهام مثل البحث الصوتي، من خلال مكبرات الصوت لدينا، وعبر (Alexa) من (Amazon) أو (Microsoft Cortana)، لتشغيل الموسيقى. و تستمر هذه التقنية في الاندماج في المنتجات اليومية التي نستخدمنها ممّا يغذي حركة انترنت الأشياء.
- العناية الصحية: يستخدمها الأطباء لتسجيل وتشخيص المرضى وملاحظات العلاج.
- المبيعات: يمكن أن يساعد مركز الاتصال على تحويل آلاف المكالمات الهاتفية بين العملاء والوكلاء لتحديد أنماط المكالمات الشائعة والمشكلات، ويمكن للروبوتات المعرفية أيضاً التحدث إلى الأشخاص عبر صفحة ويب والإجابة على الاستفسارات الشائعة وحل الطلبات الأساسية دون الحاجة إلى انتظار توفر وكيل مركز الاتصال. كلا الحالتين تساعد أنظمة التعرف على الكلام في تقليل الوقت اللازم لحل مشكلات المستهلك.
- الأمان: مع اندماج التكنولوجيا في حياتنا اليومية، أصبحت بروتوكولات الأمان أولوية متزايدة. تضيف المصادقة المستندة إلى الصوت مستوى قابلاً للتطبيق من الأمان.